Data Processing

Data Processing

ข่าวและบทความที่เกี่ยวข้อง

All Data Processing

PostType Filter En

บทความ

Data Engineer (DE) ผู้อยู่เบื้องหลังโลก Big Data
องค์กรส่วนใหญ่รับรู้ว่าข้อมูลนั้นมีความสำคัญมากแค่ไหน ดังนั้นจึงต้องการคนมาดูแลเรื่องนี้โดยเฉพาะ เราเรียกคนเหล่านี้ว่า Data Engineer ด้วยเหตุนี้ Data Engineer จึงเป็นที่ต้องการในตลาดแรงงานมากขึ้นทุกวัน โดยในบทความนี้จะขอกล่าวถึงบทบาทของ Data Engineer ว่าคืออะไร และมีหน้าที่อย่างไรบ้าง
1 August 2022

บทความ

Astronomy in 2021: ดูดาวด้วย Data Science
กล้องใหม่ ไซส์ Big เลยเอามาเล่าให้ชาว Big Data ฟัง หลังจากที่นักดาราศาสตร์รอคอยกันมานาน ในที่สุดกล้องดูดาว Vera C. Rubin Observatory หรือที่เรียกว่า LSST ก็สร้างเสร็จและมีกำหนดการทดสอบใช้ครั้งแรกปลายปีนี้ (ในขณะที่ผู้เขียนกำลังเขียนอยู่นั้น ก็ได้ทราบข่าวร้ายว่าได้มีการเลื่อนเปิดไปเป็นปี 2023 เนื่องจากสถานการณ์โควิด-19) แล้วกล้องดูดาวนี้พิเศษอย่างไร? กล้องดูดาวขนาดใหญ่จะมีส่วนประกอบสำคัญแบ่งได้เป็น 2 ส่วน ส่วนแรกคือส่วนรับแสงจากท้องฟ้า มีหน้าที่รวบรวมแสงอันริบหรี่ของดาวไกล ๆ ให้สว่างขึ้นจนมองเห็นได้บนภาพ ในส่วนนี้ LSST ใช้กระจกขนาดประมาณ 8 เมตรซึ่งถือว่าไม่ใหญ่มากเมื่อเทียบกับกล้องดูดาวชั้นนำแห่งอื่น แต่ความพิเศษของ LSST จะอยู่ในส่วนที่สอง ซึ่งก็คืออุปกรณ์รับภาพ เมื่อสร้างเสร็จ กล้อง LSST จะเป็นกล้องดิจิทัลที่มีขนาดใหญ่ที่สุดในโลก มีขนาดหน้ากล้องประมาณ 1.65 เมตร และมีอุปกรณ์รับภาพ 3.2-gigapixel CCD imaging camera หรือ 3,200 ล้านพิกเซล มากกว่ากล้องสมาร์ทโฟนที่เราใช้กันเป็นร้อยเท่า คาดการณ์ว่าจะเก็บข้อมูลแบบ raw ประมาณ 20 Terabyte ทุก ๆ คืน เก็บภาพแค่ชั่วโมงเดียวก็เต็มคอมพิวเตอร์ผู้เขียนแล้ว ? เรียกว่าเป็นกล้องดูดาวรุ่นใหม่ที่ให้ข้อมูลจำนวนมหาศาลแบบไม่เคยมีมาก่อนกับนักดาราศาสตร์ หากท่านที่คิดว่าข้อมูลทางดาราศาสตร์มันน่าจะใหญ่มากอยู่แล้วหรือเปล่า ผมขอยกตัวอย่างข้อมูลจากกล้องดูดาวที่มีชื่อเสียงมาเปรียบเทียบนะครับ พูดง่าย ๆ ก็คือ กล้อง LSST มีอัตราการเก็บข้อมูลที่สูงกว่ากล้องดูดาวที่มีอยู่ก่อน ถึง 200 – 8000 เท่าเลยทีเดียว! Why big camera? แล้วทำไมเราถึงต้องใช้กล้องขนาดใหญ่ขนาดนี้? ในส่วนแรก (ส่วนรับแสงจากท้องฟ้า) ขนาดหน้ากล้องดูดาวจะเป็นตัวกำหนดความสามารถในการรวมแสง และการแยกภาพของวัตถุสองชิ้นออกจากกัน ยิ่งกล้องมีขนาดใหญ่ ก็จะสามารถถ่ายภาพได้สว่างขึ้น และแยกภาพของวัตถุที่อยู่ใกล้กันได้มากขึ้น เนื่องจากวัตถุยิ่งอยู่ไกล ก็จะปรากฎบนภาพจางลง และมีรายละเอียดที่ใกล้กันมากขึ้น นั่นแปลว่ากล้องขนาดใหญ่จะทำให้เราศึกษาวัตถุได้ไกลมากขึ้น ในส่วนที่สอง ขนาดของอุปกรณ์รับภาพ ยิ่งกล้องมีขนาดใหญ่ ก็จะทำให้สามารถถ่ายภาพได้กว้างขึ้น ซึ่งเมื่อเราได้ภาพกว้างขึ้นแต่ยังอยากให้มีรายละเอียดเท่าเดิม อุปกรณ์รับภาพก็ต้องมีจำนวนพิกเซลเยอะขึ้นตามไปด้วย ความสำคัญในส่วนนี้คือกล้องขนาดใหญ่จะสามารถถ่ายภาพครอบคลุมท้องฟ้าได้มากขึ้นในเวลาเท่าเดิม สมมติว่าเดิมเราต้องใช้เวลา 2 คืนเพื่อถ่ายภาพในบริเวณที่สนใจ ถ้าเราลดเวลาถ่ายภาพเหลือ 1 คืนได้ เราก็จะสามารถถ่ายภาพได้ถี่ขึ้น ซึ่งจะทำให้เราศึกษาการเปลี่ยนแปลงของท้องฟ้าได้ดีขึ้น Data Science มีส่วนอย่างไรในการดูดาว การจัดการข้อมูลมหาศาลขนาดนี้ ต้องมีการออกแบบ data pipeline และ architecture ที่ดีมาก นอกจากนี้แล้ว ยังมีปัญหาที่สำคัญอีกประการหนึ่งสำหรับนักดาราศาสตร์ คือ ข้อมูลที่ถูกสร้างจำนวนมหาศาลขนาดนี้ การใช้ “คน” มาเลือก “รูป” ที่น่าสนใจก่อนที่จะนำไปวิเคราะห์เชิงดาราศาสตร์ จะเป็นกระบวนการที่ใช้เวลามากตามไปด้วย จินตนาการเหมือนให้นักดาราศาสตร์มานั่งดูรูปด้วยตาทีละรูป นี่ยังไม่ได้เข้าสู่กระบวนการนำรูปไปวิเคราะห์เลย ก็อาจจะใช้เวลาเป็นเดือนหรือเป็นปีแล้ว การจะนำข้อมูล raw ขนาดมหาศาลนี้ไปส่งให้ถึงมือนักดาราศาสตร์ที่สนใจได้ ระบบจำเป็นที่จะต้องมีการวิเคราะห์ข้อมูลโดยอัตโนมัติ เพื่อที่จะเลือกภาพที่น่าสนใจให้คนไปศึกษาต่อ เป็นที่มาของการใช้ Data Science ในการดูดาว ในบทความนี้ผู้เขียนจะกล่าวถึงกระบวนการทางดาราศาสตร์ที่ได้นำเทคนิคทาง Data Science มาประยุกต์ใช้ สองกระบวนการครับ คือ การเลือกรูปที่น่าสนใจจากข้อมูลมหาศาลมาวิเคราะห์ และการจำแนกเหตุการณ์ทางดาราศาสตร์ ครับ ข้อมูลมหาศาล ทำอย่างไรให้ได้สิ่งที่นักดาราศาสตร์สนใจ หลายคนอาจจะคิดไว้ในใจแล้วว่านี่เป็นโจทย์ Anomaly detection แต่สิ่งที่ทางนักดาราศาสตร์ของ LSST ทำนั้นง่ายกว่านั้นมาก เค้าแค่เลือกใช้เฉพาะจุดที่มีการเปลี่ยนแปลงของแสงเกินค่า threshold ที่ตั้งไว้ครับ ก่อนอื่นก็ต้องอธิบายก่อนว่า LSST เป็นกล้องประเภท survey ซึ่งจะทำการถ่ายภาพท้องฟ้าทุกคืนเพื่อหาสิ่งที่เปลี่ยนแปลงไปในแต่ละคืน และแจ้งเตือนแบบ real-time เพื่อให้นักดาราศาสตร์สามารถใช้กล้องแบบเฉพาะทาง เช่น กล้อง X-Ray ศึกษาไปพร้อมกันกับข้อมูลการเปลี่ยนแปลงของแสงที่ได้จากกล้อง LSST ดังนั้นสิ่งที่นักดาราศาสตร์อยากได้ไม่ใช่ภาพสวย ๆ แบบนี้ แต่จะเป็นข้อมูล time-series ของการเปลี่ยนแปลงของความสว่างของวัตถุ หรือเหตุการณ์ (เรียกว่า light curve) แบบนี้ ข้อมูล light curve จากกราฟด้านบน จะเป็นข้อมูลของวัตถุเดียว หรือเหตุการณ์ในตำแหน่งเดียว ซึ่งก็คือข้อมูลเพียงพิกเซลเดียวบนกล้อง 3200 ล้านพิกเซล ที่ถูกเก็บมาตามช่วงเวลาที่ตั้งไว้ (เช่น หนึ่งวัน) แต่ก็คงไม่มีใครต้องการดูกราฟแบบนี้ 3200 ล้านกราฟด้วยตนเอง ดังนั้นเราจึงจำเป็นต้องให้คอมพิวเตอร์ทำการเลือกสิ่งที่น่าสนใจให้เราโดยอัตโนมัติ สิ่งที่ต้องทำคือหาผลต่างของความสว่างในแต่ละพิกเซล เทียบกับภาพอ้างอิงของท้องฟ้าตำแหน่งเดียวกันในเวลาก่อนหน้า จากนั้นก็ทำการตั้ง threshold เพื่อเลือกพิกเซลที่มีการเปลี่ยนแปลงความสว่างเกินค่าที่กำหนด ในขั้นตอนนี้ทางนักวิจัยก็จะต้องศึกษา และตัดสินใจว่า threshold ควรเป็นเท่าไหร่ ซึ่งก็ต้องประเมินจาก noise ของภาพ ประกอบกับ false positive และ true negative rate ที่ต้องการ สังเกตได้ว่าการทำ threshold ของแต่ละพิกเซล ไม่ได้นำข้อมูลโดยรอบมาคำนึงถึง จึงทำให้ไม่สามารถค้นพบและติดตามการเคลื่อนที่ของวัตถุบนภาพเช่น ดาวหาง หรือดาวเคราะห์ในระบบสุริยะของเราได้ แต่กล้องตัวนี้จะเน้นไปที่การค้นหาวัตถุหรือเหตุการณ์ที่เกิดขึ้นไกล ๆ ซึ่งภาพจากวัตถุไกล ๆ จะปรากฏเหมือนแทบไม่ขยับเลย การเลือกตำแหน่งที่สนใจก็จะมีขั้นตอนเพียงเท่านี้ ซึ่งมันดูง่ายมาก ๆ จนเหมือนง่ายเกินไปหรือเปล่า? ถ้าเราต้องการความแม่นยำในการเลือกจุดสนใจ เรามีวิธีทางสถิติหรือ Data Science หลายวิธีที่ดีกว่าการทำ threshold แน่นอน แต่เหตุผลหลักของการทำ threshold คือเราไม่ได้ต้องการความแม่นยำมากขนาดนั้น เราทำขั้นตอนนี้เพื่อลดปริมาณข้อมูลที่ต้องใช้ประมวลผลในขั้นตอนถัดไป ดังนั้นวิธีที่ทำได้ง่าย ไว และไม่เปลืองทรัพยากรในการประมวลผล จึงเป็นวิธีที่เหมาะสมที่สุดครับ จำแนกเหตุการณ์ทางดาราศาสตร์ด้วย Classification หลังจากที่เราได้ตำแหน่งภาพที่มีการเปลี่ยนแปลงของความสว่าง และข้อมูล light curve ขั้นตอนถัดไปคือการใช้ Data Science ช่วยจำแนกข้อมูลที่ได้เป็นประเภทของเหตุการณ์ที่น่าสนใจทางดาราศาสตร์ด้วย classification ตัวอย่างเหตุการณ์ที่เกิดขึ้นในดาราศาสตร์ เช่น การระเบิดของดาวขนาดใหญ่เมื่อหมดอายุขัย (Supernova) ดาวแปรแสง (Cepheids) หรือดาวคู่ที่โคจรรอบกันและบังแสงกันเอง (Eclipsing Binaries) เป็นต้น โดยเหตุการณ์เหล่านี้ก็จะมีลักษณะของ light curve ที่แตกต่างกัน เพราะฉะนั้น ข้อมูล light curve ที่แสดงการเปลี่ยนแปลงที่แสงสว่างตามช่วงเวลาที่ผ่านไป ประกบกับ label ว่า light curve ในลักษณะนี้จัดว่าเป็นปรากฎการณ์ทางดาราศาสตร์แบบใด (ซึ่ง LSST ก็มีการศึกษาไว้แล้วมากมาย) ก็ได้ถูกนำมาใช้เป็น training data เพื่อทำโจทย์นี้นั่นเองครับ ทาง LSST จึงได้จัดการแข่งขัน The Photometric LSST Astronomical...
14 June 2021
PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.