LLM Evaluation Metrics: การวัดประสิทธิภาพโมเดลภาษาขนาดใหญ่ 

LLM Evaluation Metrics: การวัดประสิทธิภาพโมเดลภาษาขนาดใหญ่ 

ในยุคที่เทคโนโลยีปัญญาประดิษฐ์ (AI) กำลังพัฒนาอย่างรวดเร็ว โมเดลภาษาขนาดใหญ่ (Large Language Model – LLM) ได้กลายเป็นเครื่องมือสำคัญในการประมวลผลภาษาธรรมชาติ (Natural Language Processing – NLP) ซึ่งมีความสามารถในการสร้างข้อความที่ใกล้เคียงกับภาษามนุษย์ เช่น การเขียนบทความ การตอบคำถาม หรือการแปลภาษา การพัฒนา LLM ไม่ได้มุ่งเน้นเพียงการสร้างโมเดลที่ทำงานได้ดีบนข้อมูลที่มีอยู่เท่านั้น แต่ยังต้องให้ความสำคัญกับการประเมินความสามารถของโมเดลด้วยการวัดประสิทธิภาพ (Evaluation Metrics) เพื่อให้ผู้พัฒนาสามารถปรับปรุงโมเดลให้มีประสิทธิภาพที่ดียิ่งขึ้นในอนาคต 

รูปที่ 1 ภาพรวมระบบการวัดประสิทธิภาพโมเดลภาษาขนาดใหญ่ [1

ในบทความนี้ จะเริ่มด้วยการเล่าถึงความสำคัญของการวัดประสิทธิภาพ LLM ประเภทของการคำนวณค่าการวัดประสิทธิภาพ LLM และการนำไปประยุกต์ใช้งานจริงและข้อควรระวัง 

ความสำคัญของการวัดประสิทธิภาพ LLM 

การวัดประสิทธิภาพของโมเดลภาษาขนาดใหญ่เป็นสิ่งสำคัญด้วยเหตุผลหลายประการ เช่น 

  • การปรับปรุงโมเดล: การวัดประสิทธิภาพช่วยระบุจุดอ่อนของโมเดลอย่างชัดเจน ทำให้ผู้พัฒนาสามารถปรับปรุงและแก้ไขโมเดลให้ดียิ่งขึ้น 
  • การสร้างความมั่นใจให้ผู้ใช้: การประเมินที่แม่นยำทำให้มั่นใจได้ว่าโมเดลให้ข้อมูลที่ถูกต้องและน่าเชื่อถือ 
  • การลดความเสี่ยง: ช่วยป้องกันการใช้โมเดลที่อาจสร้างข้อมูลที่ไม่ถูกต้องหรือมีอคติ ซึ่งอาจก่อให้เกิดผลกระทบที่ไม่พึงประสงค์ 

หากการวัดประสิทธิภาพไม่ถูกต้อง อาจนำไปสู่การตัดสินใจที่ผิดพลาดได้ เช่น 

  • การให้ข้อมูลที่ไม่ถูกต้อง: ซึ่งอาจทำให้ผู้ใช้สูญเสียความเชื่อมั่นในระบบ 
  • การสร้างเนื้อหาที่ไม่เหมาะสม: ซึ่งอาจทำให้เกิดปัญหาทางจริยธรรมและกฎหมาย 
  • การขาดประสิทธิภาพ: ทำให้โมเดลไม่สามารถตอบสนองต่อความต้องการของผู้ใช้ได้อย่างเต็มที่ 

ประเภทของการคำนวณค่าการวัดประสิทธิภาพ LLM 

การประเมินผลของ LLM สามารถแบ่งออกเป็น 3 ประเภทหลัก ได้แก่ 

1 การวัดเชิงสถิติ (Statistical Scorers) 

การวัดเชิงสถิติเป็นการใช้วิธีการทางสถิติเพื่อประเมินความคล้ายคลึงกันของข้อความที่โมเดลสร้างขึ้นกับข้อความที่มนุษย์สร้าง ข้อดีของวิธีนี้คือ เข้าใจง่าย ใช้กันแพร่หลาย ใช้ทรัพยากรน้อย และประเมินผลได้รวดเร็ว แต่ข้อเสียคือไม่คำนึงถึงความหมายเชิงบริบทหรือความเข้าใจที่ลึกซึ้ง เช่น 

  • BLEU (Bilingual Evaluation Understudy): เป็นเครื่องมือที่ใช้ในการประเมินการแปลภาษา โดยวัดความคล้ายคลึงระหว่างประโยคที่โมเดลสร้างขึ้นกับประโยคที่มนุษย์สร้าง โดยการนับการเกิดของ n-gram (กลุ่มของ n คำที่ต่อเนื่องกัน) ในการวัดความคล้ายคลึงกัน ยิ่งคำตรงกันมาก BLEU ยิ่งสูง 
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation): ใช้ในการประเมินผลการสรุปข้อความ (summarization) โดยวัดการครอบคลุม (recall) ของ n-gram ระหว่างข้อความที่โมเดลสร้างและข้อความสรุปของมนุษย์ ช่วยให้เข้าใจว่าข้อความที่โมเดลสร้างมีความคล้ายคลึงกับการสรุปของมนุษย์มากน้อยเพียงใด ยิ่งโมเดลสรุปข้อความได้ดีมาก ROUGE ยิ่งสูง 
  • Levenshtein Distance: วัดความคล้ายคลึงระหว่างสองข้อความ โดยอิงจากจำนวนการแก้ไขที่ต้องทำเพื่อเปลี่ยนข้อความหนึ่งไปเป็นอีกข้อความหนึ่ง เช่น การเพิ่ม ลบ หรือแทนที่อักขระ Levenshtein Distance จะบ่งบอกถึงจำนวนการกระทำที่ต้องทำเพื่อแปลงข้อความหนึ่งไปเป็นอีกข้อความหนึ่ง ถ้ามีค่าน้อย หมายความว่าข้อความสองชุดนั้นคล้ายคลึงกันมาก 

2 การวัดด้วยโมเดล (Model-Based Scorers) 

การวัดด้วยโมเดลใช้ LLM เองในการประเมินผล ซึ่งสามารถให้ผลที่แม่นยำและใกล้เคียงความจริงมากกว่า แต่มีความซับซ้อนและต้องการการประมวลผลมากขึ้น เช่น 

  • GPTScore: ใช้ความน่าจะเป็นในการสร้างข้อความเป้าหมายเป็นตัวชี้วัด โดยวัดความน่าจะเป็นที่โมเดลจะสร้างข้อความที่ต้องการ คำนวณโดยอิงจากค่าความน่าจะเป็นของข้อความที่โมเดลสร้าง ถ้ามีค่า GPTScore สูง แสดงว่าโมเดลสามารถสร้างข้อความที่มีความใกล้เคียงกับข้อความเป้าหมายได้อย่างแม่นยำ 
  • G-Eval: ใช้กระบวนการที่เรียกว่า “chain of thoughts” เพื่อสร้างขั้นตอนการประเมินผล โดยให้โมเดลสร้างชุดของขั้นตอนการประเมินก่อนที่จะใช้ขั้นตอนเหล่านั้นในการกำหนดคะแนนสุดท้าย การประเมินความสอดคล้องของผลลัพธ์จะถูกกำหนดโดยการสร้างคำถามที่มีเกณฑ์การประเมินและข้อความที่ต้องการประเมิน ผลลัพธ์จะอิงจากกระบวนการคิดของโมเดล 

รูปที่ 2 แสดงกระบวนการ G-EVAL: LLM สร้าง chain of thoughts จากข้อมูลงานและเกณฑ์ แล้วใช้ผลลัพธ์นี้ประเมินแบบผ่านการใช้คำสั่ง (prompt) จากนั้นคำนวณคะแนนสุดท้ายโดยใช้ผลรวมถ่วงน้ำหนักด้วยความน่าจะเป็นของคะแนนผลลัพธ์ [2

3 การผสมผสานระหว่างการวัดเชิงสถิติและโมเดล (Combining Statistical and Model-Based Scorers) 

การผสมผสานระหว่างการวัดเชิงสถิติและการวัดด้วยโมเดลช่วยให้ได้ผลลัพธ์ที่มีความแม่นยำและเชื่อถือได้มากขึ้น โดยคำนึงถึงความหมายเชิงบริบท เช่น 

  • BERTScore: ใช้โมเดลภาษาที่ผ่านการฝึกฝนมาแล้ว เช่น BERT ในการประเมินความคล้ายคลึงระหว่างเวกเตอร์ของคำในข้อความที่สร้างขึ้นกับเวกเตอร์คำในข้อความอ้างอิง ยิ่งค่า BERTScore สูงมากเท่าใด ข้อความที่โมเดลสร้างก็ยิ่งมีความใกล้เคียงกับข้อความที่ต้องการมากขึ้นเท่านั้น 

รูปที่ 3 แสดงการประเมินความคล้ายคลึงระหว่างข้อความอ้างอิงและข้อความที่สร้างขึ้น โดยใช้ BERT embeddings เพื่อแทนคำในรูปแบบเวกเตอร์ และใช้การคำนวณค่าความคล้ายคลึง (cosine similarity) ระหว่างคำในแต่ละประโยค จากนั้นจับคู่คำที่มีความคล้ายคลึงกันแบบ greedy matching (แสดงด้วยกรอบสีแดง) และอาจถ่วงน้ำหนักด้วย IDF เพื่อเพิ่มความแม่นยำ (เป็นตัวเลือก) [3

การนำไปประยุกต์ใช้งานจริงและข้อควรระวัง 

เพื่อให้การวัดประสิทธิภาพของโมเดลภาษาขนาดใหญ่มีความครอบคลุมและแม่นยำมากขึ้น ควรพิจารณาวิธีการที่หลากหลายดังนี้: 

  • การคำนวณค่าการวัดประสิทธิภาพหลายประเภทร่วมกัน: การนำการวัดเชิงสถิติ เช่น BLEU และ ROUGE มาร่วมกับการผสมผสานระหว่างการวัดเชิงสถิติและโมเดล เช่น BERTScore จะช่วยให้การประเมินผลมีความครอบคลุมมากขึ้น ได้รับภาพรวมที่ชัดเจนเกี่ยวกับความสามารถของโมเดล และลดความเสี่ยงในการ overfitting ของผลการวัดได้ 
  • การประเมินความทนทานของโมเดล: ควรพิจารณาประสิทธิภาพของโมเดลภายใต้สถานการณ์ต่าง ๆ เช่น ข้อความที่มีโครงสร้างที่ซับซ้อนหรือมีการใช้ภาษาที่ไม่เป็นทางการ เพื่อให้มั่นใจว่าโมเดลสามารถทำงานได้ดีในสภาพแวดล้อมที่หลากหลาย การทดสอบโมเดลภายใต้เงื่อนไขที่หลากหลายจะช่วยให้เราเข้าใจความสามารถและข้อจำกัดของโมเดลได้อย่างครอบคลุม 
  • การประเมินด้วยมนุษย์: การเสริมการประเมินด้วยมนุษย์เข้าไปในการประเมินผลจะช่วยให้ได้ข้อมูลที่ละเอียดและเชิงคุณภาพมากขึ้น การใช้ผู้เชี่ยวชาญหรือผู้ใช้จริงในการประเมินความถูกต้อง ความเป็นธรรมชาติ และความเหมาะสมของข้อความที่โมเดลสร้างขึ้น สามารถจับข้อผิดพลาดที่การวัดประสิทธิภาพอาจไม่สามารถตรวจจับได้ การประเมินด้วยมนุษย์จะช่วยเสริมความเชื่อมั่นในความแม่นยำของผลลัพธ์ที่ได้จากการวัดเชิงสถิติและโมเดล 

บทสรุป 

การวัดประสิทธิภาพของโมเดลภาษาขนาดใหญ่เป็นกระบวนการที่สำคัญและจำเป็นในการพัฒนา LLM ที่มีคุณภาพ การใช้วิธีการวัดที่หลากหลายและการประเมินผลอย่างครอบคลุมจะช่วยให้ได้โมเดลที่มีประสิทธิภาพและสามารถตอบสนองต่อความต้องการของผู้ใช้ได้อย่างมีประสิทธิภาพในอนาคต 

เอกสารอ้างอิง 

บทความโดย ธนกร ทำอิ่นแก้ว

ตรวจทานและปรับปรุงโดย ดร.ขวัญศิริ ศิริมังคลา

Data Scientist at Big Data Institute (Public Organization), BDI

ไอคอน PDPA

เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณ คุณสามารถศึกษารายละเอียดได้ที่ “นโยบายคุ้กกี้” และสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ “ตั้งค่า”

ตั้งค่าความเป็นส่วนตัว

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

ยอมรับทั้งหมด
จัดการความเป็นส่วนตัว
  • คุกกี้ที่มีความจำเป็น (Strictly Necessary Cookies)
    เปิดใช้งานตลอด

    คุกกี้ประเภทนี้มีความจำเป็นต่อการให้บริการเว็บไซต์ของ สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคล เพื่อให้ท่านสามารถเข้าใช้งานในส่วนต่าง ๆ ของเว็บไซต์ได้ รวมถึงช่วยจดจำข้อมูลที่ท่านเคยให้ไว้ผ่านเว็บไซต์ การปิดการใช้งานคุกกี้ประเภทนี้จะส่งผลให้ท่านไม่สามารถใช้บริการในสาระสำคัญของ สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคล ซึ่งจำเป็นต้องเรียกใช้คุกกี้ได้
    รายละเอียดคุกกี้

  • คุกกี้เพื่อการวิเคราะห์และประเมินผลการใช้งาน (Performance Cookies)

    คุกกี้ประเภทนี้ช่วยให้ BDI ทราบถึงการปฏิสัมพันธ์ของผู้ใช้งานในการใช้บริการเว็บไซต์ของ BDI รวมถึงหน้าเพจหรือพื้นที่ใดของเว็บไซต์ที่ได้รับความนิยม ตลอดจนการวิเคราะห์ข้อมูลด้านอื่น ๆ BDI ยังใช้ข้อมูลนี้เพื่อการปรับปรุงการทำงานของเว็บไซต์ และเพื่อเข้าใจพฤติกรรมของผู้ใช้งานมากขึ้น ถึงแม้ว่า ข้อมูลที่คุกกี้นี้เก็บรวบรวมจะเป็นข้อมูลที่ไม่สามารถระบุตัวตนได้ และนำมาใช้วิเคราะห์ทางสถิติเท่านั้น การปิดการใช้งานคุกกี้ประเภทนี้จะส่งผลให้ BDI ไม่สามารถทราบปริมาณผู้เข้าเยี่ยมชมเว็บไซต์ และไม่สามารถประเมินคุณภาพการให้บริการได้

  • คุกกี้เพื่อการใช้งานเว็บไซต์ (Functional Cookies)

    คุกกี้ประเภทนี้จะช่วยให้เว็บไซต์ของ BDI จดจำตัวเลือกต่าง ๆ ที่ท่านได้ตั้งค่าไว้และช่วยให้เว็บไซต์ส่งมอบคุณสมบัติและเนื้อหาเพิ่มเติมให้ตรงกับการใช้งานของท่านได้ เช่น ช่วยจดจำชื่อบัญชีผู้ใช้งานของท่าน หรือจดจำการเปลี่ยนแปลงการตั้งค่าขนาดฟอนต์หรือการตั้งค่าต่าง ๆ ของหน้าเพจซึ่งท่านสามารถปรับแต่งได้ การปิดการใช้งานคุกกี้ประเภทนี้อาจส่งผลให้เว็บไซต์ไม่สามารถทำงานได้อย่างสมบูรณ์

  • คุกกี้เพื่อการโฆษณาไปยังกลุ่มเป้าหมาย (Targeting Cookies)

    คุกกี้ประเภทนี้เป็นคุกกี้ที่เกิดจากการเชื่อมโยงเว็บไซต์ของบุคคลที่สาม ซึ่งเก็บข้อมูลการเข้าใช้งานและเว็บไซต์ที่ท่านได้เข้าเยี่ยมชม เพื่อนำเสนอสินค้าหรือบริการบนเว็บไซต์อื่นที่ไม่ใช่เว็บไซต์ของ BDI ทั้งนี้ หากท่านปิดการใช้งานคุกกี้ประเภทนี้จะไม่ส่งผลต่อการใช้งานเว็บไซต์ของ BDI แต่จะส่งผลให้การนำเสนอสินค้าหรือบริการบนเว็บไซต์อื่น ๆ ไม่สอดคล้องกับความสนใจของท่าน

บันทึกการตั้งค่า
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.