Data Processing Tag - Big Data Institute

ข่าวและบทความที่เกี่ยวข้อง

บทความ

Data Engineer (DE) ผู้อยู่เบื้องหลังโลก Big Data

องค์กรส่วนใหญ่รับรู้ว่าข้อมูลนั้นมีความสำคัญมากแค่ไหน ดังนั้นจึงต้องการคนมาดูแลเรื่องนี้โดยเฉพาะ เราเรียกคนเหล่านี้ว่า Data Engineer ด้วยเหตุนี้ Data Engineer จึงเป็นที่ต้องการในตลาดแรงงานมากขึ้นทุกวัน โดยในบทความนี้จะขอกล่าวถึงบทบาทของ Data Engineer ว่าคืออะไร และมีหน้าที่อย่างไรบ้าง

1 August 2022

บทความ

Movements

Astronomy in 2021: ดูดาวด้วย Data Science

กล้องใหม่ ไซส์ Big เลยเอามาเล่าให้ชาว Big Data ฟัง หลังจากที่นักดาราศาสตร์รอคอยกันมานาน ในที่สุดกล้องดูดาว Vera C. Rubin Observatory หรือที่เรียกว่า LSST ก็สร้างเสร็จและมีกำหนดการทดสอบใช้ครั้งแรกปลายปีนี้ (ในขณะที่ผู้เขียนกำลังเขียนอยู่นั้น ก็ได้ทราบข่าวร้ายว่าได้มีการเลื่อนเปิดไปเป็นปี 2023 เนื่องจากสถานการณ์โควิด-19) แล้วกล้องดูดาวนี้พิเศษอย่างไร? กล้องดูดาวขนาดใหญ่จะมีส่วนประกอบสำคัญแบ่งได้เป็น 2 ส่วน ส่วนแรกคือส่วนรับแสงจากท้องฟ้า มีหน้าที่รวบรวมแสงอันริบหรี่ของดาวไกล ๆ ให้สว่างขึ้นจนมองเห็นได้บนภาพ ในส่วนนี้ LSST ใช้กระจกขนาดประมาณ 8 เมตรซึ่งถือว่าไม่ใหญ่มากเมื่อเทียบกับกล้องดูดาวชั้นนำแห่งอื่น แต่ความพิเศษของ LSST จะอยู่ในส่วนที่สอง ซึ่งก็คืออุปกรณ์รับภาพ เมื่อสร้างเสร็จ กล้อง LSST จะเป็นกล้องดิจิทัลที่มีขนาดใหญ่ที่สุดในโลก มีขนาดหน้ากล้องประมาณ 1.65 เมตร และมีอุปกรณ์รับภาพ 3.2-gigapixel CCD imaging camera หรือ 3,200 ล้านพิกเซล มากกว่ากล้องสมาร์ทโฟนที่เราใช้กันเป็นร้อยเท่า คาดการณ์ว่าจะเก็บข้อมูลแบบ raw ประมาณ 20 Terabyte ทุก ๆ คืน เก็บภาพแค่ชั่วโมงเดียวก็เต็มคอมพิวเตอร์ผู้เขียนแล้ว ? เรียกว่าเป็นกล้องดูดาวรุ่นใหม่ที่ให้ข้อมูลจำนวนมหาศาลแบบไม่เคยมีมาก่อนกับนักดาราศาสตร์ หากท่านที่คิดว่าข้อมูลทางดาราศาสตร์มันน่าจะใหญ่มากอยู่แล้วหรือเปล่า ผมขอยกตัวอย่างข้อมูลจากกล้องดูดาวที่มีชื่อเสียงมาเปรียบเทียบนะครับ พูดง่าย ๆ ก็คือ กล้อง LSST มีอัตราการเก็บข้อมูลที่สูงกว่ากล้องดูดาวที่มีอยู่ก่อน ถึง 200 – 8000 เท่าเลยทีเดียว! Why big camera? แล้วทำไมเราถึงต้องใช้กล้องขนาดใหญ่ขนาดนี้? ในส่วนแรก (ส่วนรับแสงจากท้องฟ้า) ขนาดหน้ากล้องดูดาวจะเป็นตัวกำหนดความสามารถในการรวมแสง และการแยกภาพของวัตถุสองชิ้นออกจากกัน ยิ่งกล้องมีขนาดใหญ่ ก็จะสามารถถ่ายภาพได้สว่างขึ้น และแยกภาพของวัตถุที่อยู่ใกล้กันได้มากขึ้น เนื่องจากวัตถุยิ่งอยู่ไกล ก็จะปรากฎบนภาพจางลง และมีรายละเอียดที่ใกล้กันมากขึ้น นั่นแปลว่ากล้องขนาดใหญ่จะทำให้เราศึกษาวัตถุได้ไกลมากขึ้น ในส่วนที่สอง ขนาดของอุปกรณ์รับภาพ ยิ่งกล้องมีขนาดใหญ่ ก็จะทำให้สามารถถ่ายภาพได้กว้างขึ้น ซึ่งเมื่อเราได้ภาพกว้างขึ้นแต่ยังอยากให้มีรายละเอียดเท่าเดิม อุปกรณ์รับภาพก็ต้องมีจำนวนพิกเซลเยอะขึ้นตามไปด้วย ความสำคัญในส่วนนี้คือกล้องขนาดใหญ่จะสามารถถ่ายภาพครอบคลุมท้องฟ้าได้มากขึ้นในเวลาเท่าเดิม สมมติว่าเดิมเราต้องใช้เวลา 2 คืนเพื่อถ่ายภาพในบริเวณที่สนใจ ถ้าเราลดเวลาถ่ายภาพเหลือ 1 คืนได้ เราก็จะสามารถถ่ายภาพได้ถี่ขึ้น ซึ่งจะทำให้เราศึกษาการเปลี่ยนแปลงของท้องฟ้าได้ดีขึ้น Data Science มีส่วนอย่างไรในการดูดาว การจัดการข้อมูลมหาศาลขนาดนี้ ต้องมีการออกแบบ data pipeline และ architecture ที่ดีมาก นอกจากนี้แล้ว ยังมีปัญหาที่สำคัญอีกประการหนึ่งสำหรับนักดาราศาสตร์ คือ ข้อมูลที่ถูกสร้างจำนวนมหาศาลขนาดนี้ การใช้ “คน” มาเลือก “รูป” ที่น่าสนใจก่อนที่จะนำไปวิเคราะห์เชิงดาราศาสตร์ จะเป็นกระบวนการที่ใช้เวลามากตามไปด้วย จินตนาการเหมือนให้นักดาราศาสตร์มานั่งดูรูปด้วยตาทีละรูป นี่ยังไม่ได้เข้าสู่กระบวนการนำรูปไปวิเคราะห์เลย ก็อาจจะใช้เวลาเป็นเดือนหรือเป็นปีแล้ว การจะนำข้อมูล raw ขนาดมหาศาลนี้ไปส่งให้ถึงมือนักดาราศาสตร์ที่สนใจได้ ระบบจำเป็นที่จะต้องมีการวิเคราะห์ข้อมูลโดยอัตโนมัติ เพื่อที่จะเลือกภาพที่น่าสนใจให้คนไปศึกษาต่อ เป็นที่มาของการใช้ Data Science ในการดูดาว ในบทความนี้ผู้เขียนจะกล่าวถึงกระบวนการทางดาราศาสตร์ที่ได้นำเทคนิคทาง Data Science มาประยุกต์ใช้ สองกระบวนการครับ คือ การเลือกรูปที่น่าสนใจจากข้อมูลมหาศาลมาวิเคราะห์ และการจำแนกเหตุการณ์ทางดาราศาสตร์ ครับ ข้อมูลมหาศาล ทำอย่างไรให้ได้สิ่งที่นักดาราศาสตร์สนใจ หลายคนอาจจะคิดไว้ในใจแล้วว่านี่เป็นโจทย์ Anomaly detection แต่สิ่งที่ทางนักดาราศาสตร์ของ LSST ทำนั้นง่ายกว่านั้นมาก เค้าแค่เลือกใช้เฉพาะจุดที่มีการเปลี่ยนแปลงของแสงเกินค่า threshold ที่ตั้งไว้ครับ ก่อนอื่นก็ต้องอธิบายก่อนว่า LSST เป็นกล้องประเภท survey ซึ่งจะทำการถ่ายภาพท้องฟ้าทุกคืนเพื่อหาสิ่งที่เปลี่ยนแปลงไปในแต่ละคืน และแจ้งเตือนแบบ real-time เพื่อให้นักดาราศาสตร์สามารถใช้กล้องแบบเฉพาะทาง เช่น กล้อง X-Ray ศึกษาไปพร้อมกันกับข้อมูลการเปลี่ยนแปลงของแสงที่ได้จากกล้อง LSST ดังนั้นสิ่งที่นักดาราศาสตร์อยากได้ไม่ใช่ภาพสวย ๆ แบบนี้ แต่จะเป็นข้อมูล time-series ของการเปลี่ยนแปลงของความสว่างของวัตถุ หรือเหตุการณ์ (เรียกว่า light curve) แบบนี้ ข้อมูล light curve จากกราฟด้านบน จะเป็นข้อมูลของวัตถุเดียว หรือเหตุการณ์ในตำแหน่งเดียว ซึ่งก็คือข้อมูลเพียงพิกเซลเดียวบนกล้อง 3200 ล้านพิกเซล ที่ถูกเก็บมาตามช่วงเวลาที่ตั้งไว้ (เช่น หนึ่งวัน) แต่ก็คงไม่มีใครต้องการดูกราฟแบบนี้ 3200 ล้านกราฟด้วยตนเอง ดังนั้นเราจึงจำเป็นต้องให้คอมพิวเตอร์ทำการเลือกสิ่งที่น่าสนใจให้เราโดยอัตโนมัติ สิ่งที่ต้องทำคือหาผลต่างของความสว่างในแต่ละพิกเซล เทียบกับภาพอ้างอิงของท้องฟ้าตำแหน่งเดียวกันในเวลาก่อนหน้า จากนั้นก็ทำการตั้ง threshold เพื่อเลือกพิกเซลที่มีการเปลี่ยนแปลงความสว่างเกินค่าที่กำหนด ในขั้นตอนนี้ทางนักวิจัยก็จะต้องศึกษา และตัดสินใจว่า threshold ควรเป็นเท่าไหร่ ซึ่งก็ต้องประเมินจาก noise ของภาพ ประกอบกับ false positive และ true negative rate ที่ต้องการ สังเกตได้ว่าการทำ threshold ของแต่ละพิกเซล ไม่ได้นำข้อมูลโดยรอบมาคำนึงถึง จึงทำให้ไม่สามารถค้นพบและติดตามการเคลื่อนที่ของวัตถุบนภาพเช่น ดาวหาง หรือดาวเคราะห์ในระบบสุริยะของเราได้ แต่กล้องตัวนี้จะเน้นไปที่การค้นหาวัตถุหรือเหตุการณ์ที่เกิดขึ้นไกล ๆ ซึ่งภาพจากวัตถุไกล ๆ จะปรากฏเหมือนแทบไม่ขยับเลย การเลือกตำแหน่งที่สนใจก็จะมีขั้นตอนเพียงเท่านี้ ซึ่งมันดูง่ายมาก ๆ จนเหมือนง่ายเกินไปหรือเปล่า? ถ้าเราต้องการความแม่นยำในการเลือกจุดสนใจ เรามีวิธีทางสถิติหรือ Data Science หลายวิธีที่ดีกว่าการทำ threshold แน่นอน แต่เหตุผลหลักของการทำ threshold คือเราไม่ได้ต้องการความแม่นยำมากขนาดนั้น เราทำขั้นตอนนี้เพื่อลดปริมาณข้อมูลที่ต้องใช้ประมวลผลในขั้นตอนถัดไป ดังนั้นวิธีที่ทำได้ง่าย ไว และไม่เปลืองทรัพยากรในการประมวลผล จึงเป็นวิธีที่เหมาะสมที่สุดครับ จำแนกเหตุการณ์ทางดาราศาสตร์ด้วย Classification หลังจากที่เราได้ตำแหน่งภาพที่มีการเปลี่ยนแปลงของความสว่าง และข้อมูล light curve ขั้นตอนถัดไปคือการใช้ Data Science ช่วยจำแนกข้อมูลที่ได้เป็นประเภทของเหตุการณ์ที่น่าสนใจทางดาราศาสตร์ด้วย classification ตัวอย่างเหตุการณ์ที่เกิดขึ้นในดาราศาสตร์ เช่น การระเบิดของดาวขนาดใหญ่เมื่อหมดอายุขัย (Supernova) ดาวแปรแสง (Cepheids) หรือดาวคู่ที่โคจรรอบกันและบังแสงกันเอง (Eclipsing Binaries) เป็นต้น โดยเหตุการณ์เหล่านี้ก็จะมีลักษณะของ light curve ที่แตกต่างกัน เพราะฉะนั้น ข้อมูล light curve ที่แสดงการเปลี่ยนแปลงที่แสงสว่างตามช่วงเวลาที่ผ่านไป ประกบกับ label ว่า light curve ในลักษณะนี้จัดว่าเป็นปรากฎการณ์ทางดาราศาสตร์แบบใด (ซึ่ง LSST ก็มีการศึกษาไว้แล้วมากมาย) ก็ได้ถูกนำมาใช้เป็น training data เพื่อทำโจทย์นี้นั่นเองครับ ทาง LSST จึงได้จัดการแข่งขัน The Photometric LSST Astronomical...

14 June 2021

รู้จัก BDI

Organization

Policy and Plan

Personnel

Operations

Data Processing

ข่าวและบทความที่เกี่ยวข้อง

Related news and articles

บทความ

บทความ

สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

Big Data Institute (Public Organization)

234/432 Soi Lat Phrao 12, Chomphon, Chatuchak, Bangkok 10900, Thailand

Contact Us

Quick Link

About Us