Tanakrit Klaikeaw, Author at Big Data Institute

บทความของผู้เขียน

Articles

การเปลี่ยนแปลงของผู้โดยสารขาเข้าไทยในช่วงความขัดแย้งในตะวันออกกลาง

การวิเคราะห์โดยใช้แบบจำลองการพยากรณ์เพื่อเปรียบเทียบกับแนวโน้มในภาวะปกติ ความขัดแย้งในตะวันออกกลางเป็นหนึ่งในปัจจัยที่อาจส่งผลต่อการเดินทางระหว่างประเทศ ทั้งในด้านความเชื่อมั่นของนักเดินทางและการปรับเส้นทางการบินของสายการบิน คำถามสำคัญจึงไม่ใช่เพียงว่า “จำนวนผู้โดยสารที่เดินทางเข้าไทยลดลงหรือไม่” แต่คือ “ลดลงมากน้อยเพียงใดเมื่อเทียบกับภาวะปกติ” เนื่องจากตัวเลขผู้โดยสารขาเข้าโดยปกติมีความผันผวนอยู่แล้ว จากปัจจัยอย่างฤดูกาล วันหยุด และพฤติกรรมการเดินทางที่เปลี่ยนแปลงไปในแต่ละช่วงเวลา การจะพิจารณาว่าความเปลี่ยนแปลงที่เกิดขึ้นเป็นผลจากความขัดแย้งในตะวันออกกลางหรือไม่ จึงต้องเปรียบเทียบกับแนวโน้มในภาวะปกติ ไม่ใช่ดูเพียงจำนวนผู้เดินทางที่เพิ่มขึ้นหรือลดลงในแต่ละวัน คำศัพท์สำคัญในการวิเคราะห์ Baseline คือตัวเลขอ้างอิงของภาวะปกติ ในบทความนี้หมายถึงค่าพยากรณ์ที่ใช้เปรียบเทียบกับตัวเลขจริง เพื่อประเมินว่าจำนวนผู้โดยสารแตกต่างจากภาวะปกติมากน้อยเพียงใด Prophet เป็นโมเดลพยากรณ์ข้อมูลตามเวลา (Forecasting Model) ที่เหมาะกับข้อมูลซึ่งมีทั้งแนวโน้ม ฤดูกาล และเหตุการณ์เฉพาะ MAPE (Mean Absolute Percentage Error) เป็นตัวชี้วัดความคลาดเคลื่อนของการพยากรณ์ในรูปเปอร์เซ็นต์ ค่ายิ่งต่ำยิ่งสะท้อนว่าโมเดลพยากรณ์ได้ใกล้เคียงกับข้อมูลจริงมากขึ้น Shock Regressor เป็นตัวแปรที่ใช้ระบุช่วงเวลาที่มีเหตุการณ์ผิดปกติ เพื่อช่วยให้โมเดลไม่ตีความข้อมูลช่วงดังกล่าวเป็นภาวะปกติ แนวคิด Baseline ในการประเมินผลกระทบ การประเมินผลกระทบของเหตุการณ์ระดับโลกต่อการเดินทางเข้าไทย ไม่สามารถพิจารณาจากจำนวนผู้โดยสารเพียงอย่างเดียวได้ เนื่องจากตัวเลขดังกล่าวมีความผันผวนตามปัจจัยในภาวะปกติอยู่แล้ว ในบทความนี้ Baseline หมายถึง ค่าพยากรณ์ของจำนวนผู้โดยสารในภาวะปกติ ซึ่งสร้างขึ้นจากโมเดลพยากรณ์ (Forecasting Model) โดยใช้ข้อมูลย้อนหลัง ก่อนนำมาเปรียบเทียบกับตัวเลขจริงที่เกิดขึ้นในช่วงเวลาศึกษา การเปรียบเทียบดังกล่าวช่วยให้เห็นว่าตัวเลขจริงแตกต่างจากแนวโน้มในภาวะปกติมากน้อยเพียงใด และทำให้สามารถประเมินได้ชัดขึ้นว่าความเปลี่ยนแปลงที่เกิดขึ้นอาจเกี่ยวข้องกับเหตุการณ์ที่กำลังศึกษาเพียงใด ภาพอธิบายหลักการของ Baseline การใช้โมเดลพยากรณ์เพื่อประมาณแนวโน้มในภาวะปกติ เพื่อสร้าง Baseline ดังกล่าว งานนี้จึงเลือกใช้โมเดลพยากรณ์ (Forecasting Model) ชื่อ Prophet เป็นเครื่องมือหลักในการประมาณจำนวนผู้โดยสารขาเข้ารายวันในภาวะปกติ โดยใช้ข้อมูลย้อนหลังตั้งแต่ปี 2023 ถึง 28 กุมภาพันธ์ 2026 ซึ่งเป็นช่วงก่อนเกิดเหตุการณ์ผิดปกติ เหตุผลที่เลือกใช้ Prophet คือข้อมูลผู้โดยสารมีทั้งแนวโน้มระยะยาว ฤดูกาล และอิทธิพลจากวันหยุดหรือเหตุการณ์เฉพาะ ทำให้โมเดลสามารถสะท้อนรูปแบบของข้อมูลได้เหมาะสม ในภาพรวม โมเดลจะเรียนรู้รูปแบบจากข้อมูลในอดีต และประมาณค่าที่ควรเกิดขึ้นในแต่ละวันภายใต้ภาวะปกติ ภาพแสดงส่วนประกอบของการพยากรณ์ผลของโมเดล Prophet การออกแบบการทดลองและชุดข้อมูล การวิเคราะห์ครอบคลุม 4 สนามบินหลัก ได้แก่ สุวรรณภูมิ (BKK), ภูเก็ต (HKT), เชียงใหม่ (CNX) และกระบี่ (KBV) โดยใช้ช่วงวันที่ 11–17 มีนาคม 2026 เป็นช่วงทดสอบ ซึ่งเป็นช่วงที่มีข้อมูลจริงสำหรับใช้เปรียบเทียบกับผลพยากรณ์ มีการทดลองทั้งหมด 6 รูปแบบ โดยใช้ชุดข้อมูลที่แตกต่างกัน เช่น การใช้เฉพาะจำนวนผู้โดยสาร การใช้ข้อมูลผู้โดยสารเฉพาะบางสัญชาติ และการใช้ข้อมูลผู้โดยสารร่วมกับข้อมูลเที่ยวบิน เช่น จำนวนเที่ยวบินในช่วงเดียวกันของปีก่อน หรือค่าเฉลี่ยเที่ยวบินในช่วงวันที่ 1–10 มีนาคม 2026 แนวทางนี้ไม่ได้ตั้งสมมติฐานล่วงหน้าว่าการมีข้อมูลมากขึ้นจะทำให้ผลพยากรณ์ดีขึ้นเสมอไป แต่ใช้ผลลัพธ์จริงเป็นตัวพิจารณาว่าวิธีใดเหมาะสมกับแต่ละสนามบิน ตารางสรุป 6 รูปแบบการทดสอบเพื่อทดสอบว่าแต่ละสนามบินเหมาะกับข้อมูลแบบใด ผลการประเมินความแม่นยำของโมเดล การประเมินความแม่นยำของโมเดลในงานนี้ใช้ค่า MAPE ซึ่งสะท้อนว่าผลพยากรณ์คลาดเคลื่อนจากข้อมูลจริงโดยเฉลี่ยกี่เปอร์เซ็นต์ โดยค่ายิ่งต่ำยิ่งแสดงว่าโมเดลให้ผลใกล้เคียงกับข้อมูลจริงมากขึ้น ตารางเปรียบเทียบประสิทธิภาพการพยากรณ์ ผลการทดสอบแสดงให้เห็นว่าความแม่นยำของโมเดลแตกต่างกันในแต่ละสนามบิน และในบางกรณีตัวเลขจริงมีความเบี่ยงเบนจากแนวโน้มในภาวะปกติอย่างชัดเจนจากเหตุการณ์เฉพาะ สำหรับ BKK โมเดลที่ใช้จำนวนผู้โดยสารเพียงอย่างเดียวให้ผลดีที่สุด โดยมีค่าความคลาดเคลื่อน 1.87% สะท้อนว่าข้อมูลมีรูปแบบค่อนข้างสม่ำเสมอและสามารถพยากรณ์แนวโน้มได้ดี ขณะที่ CNX ได้ผลดีที่สุดที่ 3.62% เมื่อใช้ข้อมูลผู้โดยสารร่วมกับจำนวนเที่ยวบิน แสดงให้เห็นว่าข้อมูลเที่ยวบินมีบทบาทในการอธิบายแนวโน้มของผู้โดยสารในพื้นที่นี้ ในทางกลับกัน KBV ยังคงเป็นสนามบินที่พยากรณ์ได้ยากที่สุด โดยค่าความคลาดเคลื่อนที่ดีที่สุดยังอยู่ในช่วงประมาณ 22.46–22.51% สะท้อนถึงความผันผวนของข้อมูลที่สูงกว่าสนามบินอื่นอย่างชัดเจน กรณีของ HKT ควรพิจารณาแยกต่างหาก เนื่องจากเมื่อวันที่ 11 มีนาคม 2026 สนามบินภูเก็ตเกิดเหตุเครื่องบินลงจอดกระแทกพื้น ส่งผลให้รันเวย์ต้องปิดชั่วคราวและกระทบต่อเที่ยวบินจำนวนมาก เหตุการณ์ดังกล่าวทำให้ค่าความคลาดเคลื่อนเพิ่มขึ้นเป็น 21.76% เมื่อรวมวันเกิดเหตุไว้ในการประเมิน อย่างไรก็ตาม เมื่อทดลองตัดช่วงวันที่ 11–12 มีนาคมออก ค่าความคลาดเคลื่อนลดลงเหลือ 4.59% ทันที สะท้อนว่าในภาวะปกติ โมเดลยังสามารถพยากรณ์แนวโน้มของ HKT ได้ในระดับที่ใกล้เคียงกับสนามบินหลักอื่น และค่าความคลาดเคลื่อนที่สูงขึ้นก่อนหน้านั้นมีสาเหตุหลักจากเหตุการณ์เฉพาะดังกล่าว ไม่ใช่ข้อจำกัดของโมเดลเอง กราฟเปรียบเทียบค่า MAPE ของ BKK, CNX, HKT (ไม่รวมวันที่เกิดเหตุการณ์), HKT และ KBV โดยเรียงลำดับจากค่าต่ำไปสูง ผลของการเพิ่มตัวแปรต่อความแม่นยำของโมเดล ผลการทดลองแสดงให้เห็นอย่างชัดเจนว่า การเพิ่มข้อมูลไม่ได้ทำให้ความแม่นยำของโมเดลดีขึ้นเสมอไป และลักษณะของข้อมูลในแต่ละสนามบินมีผลต่อประสิทธิภาพของโมเดลอย่างมีนัยสำคัญ สำหรับ BKK โมเดลที่ใช้จำนวนผู้โดยสารเพียงอย่างเดียวให้ผลลัพธ์ดีที่สุด โดยมีค่าความคลาดเคลื่อนต่ำสุดที่ 1.87% ขณะที่การเพิ่มข้อมูลเที่ยวบินเข้ามา กลับทำให้ค่าความคลาดเคลื่อนสูงขึ้น แสดงให้เห็นว่าข้อมูลผู้โดยสารเพียงอย่างเดียวเพียงพอในการอธิบายแนวโน้มของสนามบินนี้ ในกรณีของ HKT มีลักษณะคล้ายกัน คือการใช้ข้อมูลผู้โดยสารเพียงอย่างเดียวให้ผลลัพธ์ที่แม่นยำที่สุด อย่างไรก็ตาม หากรวมช่วงวันที่เกิดเหตุการณ์ผิดปกติ ค่าความคลาดเคลื่อนจะเพิ่มขึ้นอย่างมีนัยสำคัญ เนื่องจากตัวเลขจริงได้รับผลกระทบจากการหยุดชะงักของเที่ยวบิน สำหรับ CNX ผลลัพธ์แตกต่างออกไป โดยโมเดลที่ใช้ข้อมูลเที่ยวบินเฉลี่ยร่วมกับจำนวนผู้โดยสารให้ค่าความคลาดเคลื่อนต่ำสุดที่ 3.62% สะท้อนว่าข้อมูลเที่ยวบินมีบทบาทในการอธิบายแนวโน้มของผู้โดยสารในพื้นที่นี้มากกว่าสนามบินอื่น ส่วน KBV ยังคงเป็นกรณีที่มีความผันผวนสูง แม้จะทดลองหลายรูปแบบแล้ว ค่าความคลาดเคลื่อนยังอยู่ในระดับสูงในทุกวิธี โดยค่าที่ดีที่สุดอยู่ที่ประมาณ 22.46% แสดงให้เห็นว่าการเพิ่มข้อมูลไม่สามารถลดความไม่แน่นอนของข้อมูลได้อย่างมีนัยสำคัญ ผลลัพธ์ทั้งหมดสะท้อนว่า ไม่มีวิธีการหรือชุดข้อมูลใดที่เหมาะสมกับทุกสนามบิน การเลือกใช้ตัวแปรจึงควรสอดคล้องกับลักษณะของข้อมูลในแต่ละพื้นที่ และควรพิจารณาจากผลลัพธ์เชิงประจักษ์มากกว่าการตั้งสมมติฐานล่วงหน้า บทบาทของ Shock Regressor ในการพยากรณ์ อีกองค์ประกอบสำคัญของการวิเคราะห์นี้คือการใส่ Shock Regressor ลงในโมเดล เพื่อระบุช่วงเวลาที่มีเหตุการณ์ผิดปกติและอาจทำให้รูปแบบของข้อมูลแตกต่างจากภาวะปกติ ในบริบทของงานนี้ Baseline แสดงถึงแนวโน้มของจำนวนผู้โดยสารในภาวะปกติ ขณะที่ Shock Regressor ทำหน้าที่ระบุช่วงเวลาที่ข้อมูลไม่เป็นไปตามแนวโน้มดังกล่าว เช่น ช่วงที่ได้รับผลกระทบจากความขัดแย้งในตะวันออกกลาง หากไม่ใส่ตัวแปรนี้ โมเดลจะตีความข้อมูลเหมือนเป็นภาวะปกติ และยังคงพยากรณ์ตามแนวโน้มเดิม ซึ่งอาจทำให้ค่าพยากรณ์สูงกว่าความเป็นจริงในช่วงที่เกิดเหตุการณ์ผิดปกติ แต่เมื่อใส่ Shock Regressor เข้าไป โมเดลจะสามารถปรับค่าพยากรณ์ให้สอดคล้องกับข้อมูลจริงได้มากขึ้น ตัวอย่างจาก BKK และ HKT แสดงให้เห็นว่า เมื่อไม่ใส่ Shock Regressor โมเดลมีแนวโน้มพยากรณ์จำนวนผู้โดยสารสูงเกินจริงในช่วงที่ได้รับผลกระทบ แต่เมื่อใส่ตัวแปรดังกล่าว ค่าพยากรณ์จะปรับลดลงและสอดคล้องกับข้อมูลจริงมากขึ้น สะท้อนว่าโมเดลสามารถรับรู้ผลกระทบจากเหตุการณ์ได้ดีขึ้น ประเด็นนี้ชี้ให้เห็นว่า โมเดลพยากรณ์โดยทั่วไปเรียนรู้จากข้อมูลในภาวะปกติเป็นหลัก ดังนั้นเมื่อเกิดเหตุการณ์ที่อยู่นอกแนวโน้มเดิม การระบุช่วงเวลาที่ “ไม่ปกติ” ให้กับโมเดลจึงเป็นขั้นตอนสำคัญในการทำให้ผลการพยากรณ์สะท้อนสถานการณ์ได้แม่นยำขึ้น กราฟเปรียบเทียบจำนวนผู้โดยสารจริง (Actual) กับค่าพยากรณ์ที่ไม่ใช้ Shock Regressor และค่าพยากรณ์ที่ใช้ Shock Regressor ของ BKK หรือ HKT การวิเคราะห์ผลลัพธ์รายสนามบิน เมื่อพิจารณาผลลัพธ์แยกตามสนามบิน จะเห็นว่ารูปแบบของข้อมูลและการตอบสนองต่อเหตุการณ์แตกต่างกันอย่างชัดเจน สำหรับ BKK จำนวนผู้โดยสารมีรูปแบบค่อนข้างสม่ำเสมอเมื่อเทียบกับสนามบินอื่น ทำให้โมเดลสามารถพยากรณ์แนวโน้มได้ใกล้เคียงกับข้อมูลจริง โดยการใช้จำนวนผู้โดยสารเพียงอย่างเดียวให้ค่าความคลาดเคลื่อนต่ำที่สุด สะท้อนว่าข้อมูลมีเสถียรภาพและสามารถอธิบายได้ด้วยแนวโน้มพื้นฐาน ในกรณีของ HKT แม้โดยรวมจะสามารถพยากรณ์แนวโน้มในภาวะปกติได้ดี แต่ข้อมูลได้รับผลกระทบจากเหตุการณ์เฉพาะในช่วงเวลาสั้น ๆ อย่างชัดเจน โดยเหตุการณ์เครื่องบินลงจอดกระแทกพื้นในวันที่ 11 มีนาคม 2026 ทำให้จำนวนผู้โดยสารและเที่ยวบินเบี่ยงเบนจากแนวโน้มปกติอย่างมีนัยสำคัญ เมื่อแยกช่วงเวลาดังกล่าวออก รูปแบบของข้อมูลจะกลับมาใกล้เคียงกับแนวโน้มเดิม สำหรับ CNX ลักษณะของข้อมูลแตกต่างออกไป โดยจำนวนเที่ยวบินมีบทบาทในการอธิบายแนวโน้มของผู้โดยสารมากกว่าสนามบินอื่น ทำให้โมเดลที่ใช้ข้อมูลเที่ยวบินร่วมด้วยให้ผลลัพธ์ที่แม่นยำกว่า สะท้อนว่าความสัมพันธ์ระหว่างเที่ยวบินและจำนวนผู้โดยสารมีความชัดเจนในพื้นที่นี้ ส่วน KBV เป็นกรณีที่แสดงให้เห็นถึงความผันผวนของข้อมูลอย่างชัดเจน จำนวนผู้โดยสารในแต่ละวันมีการเปลี่ยนแปลงในช่วงกว้าง และมีการขึ้นลงอย่างรวดเร็วในบางช่วง แม้จะทดลองหลายรูปแบบแล้ว โมเดลยังไม่สามารถพยากรณ์แนวโน้มได้ใกล้เคียงกับข้อมูลจริงเท่าสนามบินอื่น สะท้อนว่าลักษณะของข้อมูลมีความไม่แน่นอนสูงและคาดการณ์ได้ยากกว่า ภาพรวมของทั้ง 4 สนามบินแสดงให้เห็นว่า เหตุการณ์เดียวกันอาจปรากฏในข้อมูลแตกต่างกันไปตามลักษณะของแต่ละพื้นที่ ทั้งในแง่ของความสม่ำเสมอของข้อมูล ระดับความผันผวน และความไวต่อเหตุการณ์เฉพาะ กราฟแสดงจำนวนผู้โดยสารจากสนามบิน BKK / HKT / CNX / KBV ข้อสรุปและข้อสังเกตจากการวิเคราะห์ การวิเคราะห์นี้ไม่ได้มุ่งตอบเพียงว่าจำนวนผู้โดยสารลดลงหรือไม่ แต่เน้นทำความเข้าใจว่าความเปลี่ยนแปลงดังกล่าวแตกต่างจากแนวโน้มในภาวะปกติมากน้อยเพียงใด ผลลัพธ์แสดงให้เห็นว่า การพิจารณาตัวเลขผู้โดยสารเพียงอย่างเดียวอาจไม่เพียงพอในการอธิบายผลกระทบของเหตุการณ์ภายนอก เนื่องจากตัวเลขดังกล่าวมีความผันผวนตามปัจจัยปกติอยู่แล้ว การเปรียบเทียบกับ Baseline ซึ่งเป็นค่าพยากรณ์ในภาวะปกติจึงเป็นวิธีที่ช่วยแยก “ความผันผวนตามธรรมชาติ” ออกจาก “ความเปลี่ยนแปลงที่อาจเกิดจากเหตุการณ์” ได้ชัดเจนขึ้น ในเชิงวิธีการ ผลการทดลองชี้ให้เห็นว่า การเพิ่มข้อมูลไม่ได้ทำให้ความแม่นยำของโมเดลดีขึ้นเสมอไป และไม่มีรูปแบบข้อมูลเดียวที่เหมาะกับทุกสนามบิน บางพื้นที่สามารถอธิบายแนวโน้มได้ด้วยข้อมูลผู้โดยสารเพียงอย่างเดียว ขณะที่บางพื้นที่ต้องอาศัยข้อมูลเที่ยวบินเพิ่มเติม และบางกรณีความผันผวนของข้อมูลยังทำให้การพยากรณ์เป็นไปได้ยาก แม้จะเพิ่มข้อมูลแล้วก็ตาม อีกประเด็นสำคัญคือ บทบาทของ Shock Regressor ซึ่งช่วยให้โมเดลสามารถสะท้อนช่วงเวลาที่ไม่อยู่ในภาวะปกติได้ดีขึ้น โดยเฉพาะในช่วงที่ได้รับผลกระทบจากเหตุการณ์เฉพาะ การระบุช่วงเวลาที่ “ไม่ปกติ” ให้กับโมเดลจึงมีความสำคัญไม่น้อยไปกว่าการเลือกตัวแปรหรือโมเดลที่ใช้ เมื่อพิจารณาในระดับพื้นที่ พบว่าเหตุการณ์เดียวกันไม่ได้ส่งผลต่อทุกสนามบินในลักษณะเดียวกัน สนามบินที่มีข้อมูลสม่ำเสมอสามารถรักษาแนวโน้มได้ค่อนข้างชัด ขณะที่สนามบินที่มีความผันผวนสูงหรือได้รับผลกระทบจากเหตุการณ์เฉพาะจะมีรูปแบบที่แตกต่างออกไปอย่างมีนัยสำคัญ ในสถานการณ์ที่มีความไม่แน่นอนสูง ผลกระทบอาจไม่ได้ปรากฏอย่างชัดเจนในทันที แต่อาจค่อย ๆ ปรากฏผ่านการเปลี่ยนแปลงของเส้นทางการบิน การตัดสินใจเดินทางที่ชะลอลง หรือจำนวนผู้โดยสารที่เริ่มเบี่ยงเบนจากแนวโน้มในภาวะปกติทีละน้อย ในหลายกรณี สิ่งที่ช่วยอธิบายสถานการณ์ได้ชัดเจนจึงไม่ใช่ตัวเลขที่เกิดขึ้นเพียงลำพัง แต่คือความแตกต่างระหว่าง “ตัวเลขที่เกิดขึ้นจริง” กับ “แนวโน้มในภาวะปกติ” ซึ่งเป็นกรอบสำคัญในการทำความเข้าใจผลกระทบของเหตุการณ์ได้อย่างมีความหมายมากขึ้น ผู้เขียน: กัญจน์ชยาภรณ์ แซ่จุง, ธนกฤต คล้ายแก้ว และทีม TRAVEL LINK

31 March 2026

Big Data 101

ปฏิวัติวงการ NLP: ทำไมการถ่ายทอดการเรียนรู้ (Transfer learning) จึงเป็นก้าวสำคัญของการประมวลผลภาษา

“การถ่ายทอดการเรียนรู้ (Transfer learning)” หลายคนอาจเคยได้ยินมาบ้างเกี่ยวกับการถ่ายทอดการเรียนรู้ในคอมพิวเตอร์กับงานด้านภาพหรือวิดีโอ แต่รู้หรือไม่ว่า การถ่ายทอดการเรียนรู้ก็สามารถประยุกต์ใช้กับงานด้านภาษาได้เช่นกัน ในช่วงหลายปีที่ผ่านมา มนุษย์มีความสามารถในการคาดการณ์สิ่งต่าง ๆ ได้ดียิ่งขึ้นโดยอาศัยเทคโนโลยีที่เรียกว่า การเรียนรู้ของเครื่อง (Machine learning) หลักการทำงานของเทคโนโลยีดังกล่าวคือการเรียนรู้และทำความเข้าใจข้อมูลที่ได้รับ และสร้างเป็นแบบจำลองที่มีประสิทธิภาพ การเรียนรู้ของแบบจำลองในปัจจุบันส่วนใหญ่เป็นงานเฉพาะด้าน เช่น การเรียนรู้เพื่อสร้างแบบจำลองสำหรับการจัดประเภทรูปภาพ การเรียนรู้เพื่อสร้างแบบจำลองสำหรับการคาดการณ์ล่วงหน้า ซึ่งแบบจำลองที่ถูกสร้างสำหรับงานเฉพาะด้านจะมีประสิทธิภาพที่สูงกับงานนั้น ๆ แต่ในทางกลับกัน แบบจำลองเหล่านั้น อาจเกิดข้อผิดพลาดได้ง่ายกับเงื่อนไข หรือข้อมูลที่ไม่เคยพบมาก่อน ในความเป็นจริง ข้อมูลที่ถูกนำมาให้แบบจำลองเรียนรู้อาจไม่สมบูรณ์ หรือไม่สามารถใช้งานได้ทันทีเหมือนแบบฝึกหัดที่ครูสอนในห้องเรียน ข้อมูลจริงมีโอกาสเกิดทั้ง ความผิดพลาด ความซับซ้อน และมีจำนวนที่น้อย ยกตัวอย่างเช่น ข้อมูลภาพถ่ายความร้อนในห้องน้ำสำหรับแบบจำลองการตรวจจับการล้ม[1] ซึ่งภาพถ่ายความร้อนในห้องน้ำสำหรับการตรวจจับการล้มนั้นเป็นข้อมูลที่เก็บได้ยาก เนื่องจากการล้มในห้องน้ำไม่ได้เกิดขึ้นบ่อย จึงทำให้ข้อมูลที่เก็บได้มีจำนวนน้อย อาจส่งผลให้แบบจำลองที่ถูกเรียนรู้จากข้อมูลดังกล่าวไม่สามารถคาดการณ์สิ่งต่าง ๆ ได้ดีพอ การถ่ายทอดการเรียนรู้จึงถูกนำมาใช้เพื่อแก้ไขปัญหาดังกล่าว โดยมีหลักการทำงานคือ การถ่ายทอดการเรียนรู้จากแบบจำลองหนึ่งไปยังอีกแบบจำลองหนึ่งดังภาพที่ 1 การถ่ายทอดการเรียนรู้ นิยมนำไปประยุกต์ใช้กับงานทางด้าน คอมพิวเตอร์วิทัศน์ (Computer Vision) เช่น การประมวลผลภาพ หรือวิดีโอ เพื่อให้คอมพิวเตอร์สามารถเข้าใจทัศนียภาพ หรือจำแนกวัตถุต่าง ๆ เนื่องจากแบบจำลองสำหรับงานด้านนี้มีพารามิเตอร์เป็นจำนวนมาก ซึ่งจำเป็นต้องใช้ชุดข้อมูลขนาดใหญ่ในการเรียนรู้ของแบบจำลอง โดยอาจใช้เวลาหลายวัน หรือหลายสัปดาห์ในการเรียนรู้ เพื่อให้แบบจำลองสามารถคาดการณ์สิ่งต่าง ๆ ออกมาได้ดียิ่งขึ้น ซึ่งการเรียนรู้แบบจำลองนั้นเป็นความท้าทายอย่างหนึ่งของผู้ที่สนใจในด้านนี้ จึงมีการจัดการแข่งขันที่มากมายในแต่ละปีเพื่อสร้างแบบจำลองที่ดีที่สุด ตัวอย่างเช่น การแข่งขัน ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ที่จัดขึ้นเป็นประจำทุกปี เพื่อเชิญชวนให้นักวิจัยจากทุกมุมโลกมาเข้าร่วม และแข่งกันกันแสดงศักยภาพแบบจำลองของตนเอง ซึ่งทีม Visual Geometry Group (VGG) ได้รับรางวัลรองชนะเลิศอันดับ 1 ในปี ค.ศ. 2014 และมีชื่อเสียงมากในวงการนี้ แบบจำลองที่น่าสนใจของ VGG มีชื่อว่า VGG-16 ซึ่งมีการใช้ Convolution network เป็นโครงสร้างหลัก แบบจำลองดังกล่าวสามารถตรวจจับองค์ประกอบของรูปภาพได้ (ขอบ รูปแบบ สไตล์ และอื่นๆ) สถาปัตยกรรมของแบบจำลอง VGG-16 ค่อนข้างซับซ้อน มีเลเยอร์ที่หลากหลายและพารามิเตอร์จำนวนมาก ซึ่งผลลัพธ์ที่ได้แสดงให้เห็นว่า ชั้นประมวลผลที่ซ่อนอยู่ (Hidden layers) ของแบบจำลองสามารถตรวจจับองค์ประกอบในงานแต่ละงานได้ดี แนวคิดการถ่ายทอดการเรียนรู้ กล่าวคือ เลเยอร์ระหว่างกลางภายในแบบจำลองถือเป็นความรู้ทั่วไปที่แบบจำลองได้รับการฝึกอบรม ถ้ามองในมุมของแบบจำลอง VGG-16 ความรู้นั้นคือองค์ประกอบที่เกี่ยวกับภาพ เราสามารถใช้มันเป็นเครื่องมือสร้างแบบจำลองที่มีประสิทธิภาพ ซึ่งสามารถทำได้โดยการนำแบบจำลองที่ผ่านการเรียนรู้แล้ว มาประยุกต์ใช้กับแบบจำลองใหม่ โดยเปลี่ยนเป้าหมายหรือวัตถุประสงค์ของแบบจำลองตามที่ต้องการ ข้อมูลที่นำมาใช้สำหรับการเรียนรู้แบบจำลองใหม่จะมีลักษณะที่แตกต่างออกไปจากแบบจำลองเดิม จึงจำเป็นต้องเรียนรู้ใหม่อีกครั้ง โดยการเรียนรู้ของแบบจำลองครั้งนี้จะใช้ระยะเวลาที่สั้นขึ้น นอกเหนือจากการเรียนรู้แบบจำลองที่เร็วขึ้นแล้ว การถ่ายทอดการเรียนรู้ยังเป็นสิ่งที่น่าสนใจเป็นพิเศษเช่นกัน การถ่ายทอดการเรียนรู้ทำให้ใช้ข้อมูลที่มีการกำกับ (Label) น้อยลง เมื่อเทียบกับชุดข้อมูลขนาดใหญ่ที่ถูกใช้ในการเรียนรู้แบบจำลองตั้งต้น ซึ่งข้อมูลที่มีการกำกับเป็นข้อมูลที่หายากและมีมูลค่าสูง ดังนั้นการถ่ายทอดการเรียนรู้เพื่อสร้างแบบจำลองที่มีคุณภาพโดยไม่ต้องใช้ข้อมูลขนาดใหญ่จึงเป็นที่นิยม การถ่ายทอดการเรียนรู้ในงานด้านภาษา (Transfer Learning in Natural Language Processing, NLP) ความก้าวหน้าในการเรียนรู้เชิงลึกสำหรับ NLP นั้นเติบโตน้อยกว่างานในด้าน Computer vision เนื่องจากคอมพิวเตอร์สามารถเรียนรู้ ขอบภาพ วงกลม สี่เหลี่ยม รูปร่างที่ปรากฏ ว่ามีลักษณะเป็นอย่างไร แล้วนำความรู้นี้ไปทำสิ่งต่าง ๆ แต่ในงานด้านภาษาไม่ได้ตรงไปตรงมาเหมือนงานด้านรูปภาพ ความพยายามแรกเริ่มที่ได้รับความนิยมในการถ่ายทอดการเรียนรู้ของ NLP คือการทำแบบจำลอง word embedding ตัวอย่างเช่น Word2Vec [2] และ Glove [3] ที่นิยมใช้กันอย่างแพร่หลาย การแปลงคำให้เป็นตัวเลขหรือเวกเตอร์นี้ อาศัยบริบทแวดล้อมของคำนั้นๆ เพื่อสร้างการแทนค่าเชิงตัวเลข โดยคำที่มีความหมายใกล้เคียงกันจะมีค่าเวกเตอร์ที่ใกล้เคียงกันด้วย จากบทความ Word2Vec [2] แสดงให้เห็นว่าแบบจำลองสามารถเรียนรู้ความสัมพันธ์ระหว่างชื่อประเทศกับชื่อเมืองหลวงของประเทศได้อย่างแม่นยำ สิ่งนี้ทำให้ Word2Vec ได้รับการยอมรับอย่างกว้างขวางในวงการ NLP นอกจากนี้ ยังเปิดทางให้มีการพัฒนาวิธีการแทนค่า (representation) ของคำ ตัวอักษร และเอกสารที่มีประสิทธิภาพมากขึ้นต่อไป การถ่ายทอดการเรียนรู้ใน NLP นั้นมีข้อจำกัด คือการจัดการกับภาษาที่ต่างกัน เช่น แบบจำลองที่ได้รับการเรียนรู้ด้วยภาษาอังกฤษ จะไม่สามารถที่จะนำไปใช้กับภาษาอื่น ๆ เนื่องจากรูปแบบไวยากรณ์ของแต่ละภาษามีความแตกต่างกัน เมื่อปี 2018 Howard และ Ruder ได้นำเสนอแบบจำลอง Universal Language Model Fine-tuning (ULMFiT) [4] เพื่อเป็นแนวทางในการถ่ายทอดการเรียนรู้สำหรับ NLP แนวคิดหลักของแบบจำลองนี้มาจากแบบจำลองภาษา ซึ่งเป็นแบบจำลองที่สามารถคาดการณ์คำถัดไปโดยพิจารณาจากคำที่มีอยู่ เปรียบเสมือนการใช้โทรศัพท์มือถือรุ่นใหม่ ๆ ที่มีการคาดการณ์คำถัดไปให้ผู้ใช้งานในขณะที่ผู้ใช้งานกำลังพิมพ์ข้อความ ถ้าผลลัพธ์ที่ได้จาการคาดการณ์คำถัดไปของแบบจำลอง NLP ถูกต้อง นั่นหมายความว่า แบบจำลองได้เรียนรู้ และทำความเข้าใจเกี่ยวกับโครงสร้างภาษาเป็นอย่างดี ดังนั้นความรู้ดังกล่าวจึงเป็นจุดเริ่มต้น ในการเรียนรู้แบบจำลองงานอื่น ๆ ที่กำหนดขึ้นเอง ULMFiT ได้ถูกพัฒนาโดยใช้โครงสร้าง ASGD Weight-Dropped LSTM (AWD-LSTM) [5] ซึ่งเป็นหนึ่งในแบบจำลองภาษาที่ได้รับความนิยม และถูกใช้อ้างอิงในเอกสารต่าง ๆ อีกมาก อีกทั้งยังเป็น LSTM ที่ดีที่สุดสำหรับการสร้างแบบจำลองภาษาในปัจจุบัน เมื่อแบบจำลองได้เรียนรู้รูปแบบภาษา มันสามารถนำไปประยุกต์ใช้กับงานอื่น ๆ ได้ แต่การนำไปใช้จริงยังคงต้องการปรับแต่งแบบจำลองเพื่อให้เหมาะสมกับงาน โดยเริ่มจากการฝึกอบรมรูปแบบภาษาสำหรับงานที่ใช้ หลังจากนั้นจึงฝึกอบรมสำหรับการทำงานจริง เช่น การฝึกอบรมให้แบบจำลองการจำแนกประเภท จากภาพที่ 4 การทำงานของ ULMFiT แบ่งออกเป็น 3 ขั้นตอนหลัก ได้แก่ LM pre-training คือการฝึกอบรม ULMFiT สำหรับรูปแบบภาษาทั่วไป ผลลัพธ์ที่ได้ คือแบบจำลองได้รับการเรียนรู้คุณสมบัติทั่วไปของภาษานั้น นอกจากนั้น การ pre-training จะมีประสิทธิภาพยิ่งขึ้นโดยเฉพาะข้อมูลที่มีขนาดเล็ก หรือกลาง LM fine-tuning นั้น เป็น การฝึกอบรม ULMFiT สำหรับรูปแบบภาษาเฉพาะ ผลลัพธ์ที่ได้ คือแบบจำลองที่มีรูปแบบที่เหมาะสม เพื่อใช้กับงานที่มีเป้าหมายแบบเฉพาะเจาะจง Classifier Fine-Tuning จะเป็นการฝึกอบรม ULMFiT สำหรับงานนั้น จากการทดสอบประสิทธิภาพในบทความ ULMFiT [4] พบว่าการใช้รูปแบบภาษาที่ได้รับการฝึกอบรมมาก่อน ทำให้การสร้างแบบจำลองจำแนกประเภทใช้ข้อมูลน้อยลง เช่น ผลลัพธ์จากการวิเคราะห์ IMDb ด้วยข้อมูลเพียง 100 ข้อมูล (เส้นสีเขียว) สามารถลดอัตราการผิดพลาดของแบบจำลองได้เทียบเท่ากับแบบจำลองที่ได้รับการฝึกอบรมด้วยข้อมูล 20,000 ข้อมูล (เส้นสีน้ำเงิน) ดังแสดงในรูปภาพที่ 5 และทั้งหมดนี้คือภาพรวมของการถ่ายทอดการเรียนรู้ที่สามารถนำไปใช้ในด้านการประมวลผลภาษา ความก้าวหน้าที่ได้รับจาก ULMFiT ได้ส่งเสริมการวิจัยในการถ่ายทอดการเรียนรู้สำหรับ...

8 August 2024

รู้จัก BDI

Organization

Policy and Plan

Personnel

Operations

Tanakrit Klaikeaw

บทความของผู้เขียน

Articles

สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

Big Data Institute (Public Organization)

234/432 Soi Lat Phrao 12, Chomphon, Chatuchak, Bangkok 10900, Thailand

Contact Us

Quick Link

About Us