reinforcement learning Tag - Big Data Institute

ข่าวและบทความที่เกี่ยวข้อง

บทความ

Reinforcement Learning from Human Feedback (RLHF) เทคนิคเบื้องหลัง ChatGPT

คงเถียงไม่ได้เลยว่าเวลานี้ ChatGPT เป็นที่พูดถึงกันอย่างมากตั้งแต่มีการเปิดตัวโดย OpenAI ให้คนเข้าไปทดลองเล่นกัน ซึ่งมีการทดลองนำไปประยุกต์ใช้ในงานด้านต่าง ๆ มากมาย ไม่ว่าจะเป็น การสรุปเนื้อหาที่สนใจ การสร้างตัวอย่างซอร์สโค้ดเพื่อตอบโจทย์งานต่าง ๆ ถ้าใครมีโอกาสได้เข้าไปลองเล่นแล้วก็จะพบว่า ChatGPT สามารถพูดคุยโต้ตอบกับเราได้อย่างเป็นธรรมชาติมากจนน่าตกใจ โดยเบื้องหลังของ ChatGPT ที่ทำให้ข้อความที่สร้างออกมานั้นดูสมเหตุสมผลและเป็นธรรมชาตินั้น ได้มีการใช้เทคนิคที่เรียกว่า Reinforcement Learning from Human Feedback (RLHF) ในกระบวนการฝึกฝนโมเดล ซึ่งบทความนี้จะพาท่านผู้อ่านไปรู้จักกับเทคนิค RLHF กันว่ามีหลักการการทำงานอย่างไร RLHF คืออะไร Reinforcement learning from Human Feedback หรือเรียกสั้น ๆ ว่า RLHF เป็นเทคนิคหนึ่งในการฝึกฝนโมเดล โดยมีการใส่ความคิดเห็นของมนุษย์เข้าไปเป็นส่วนหนึ่งในการฝึกฝนผ่านกระบวนการเรียนรู้แบบ Reinforcement Learning ซึ่งการฝึกฝนโมเดลรูปแบบนี้ค่อนข้างมีความซับซ้อน เนื่องจากเทคนิคนี้จะประกอบไปด้วยการฝึกฝนโมเดลย่อยหลายส่วนโดยอาจแบ่งกระบวนการฝึกฝนเป็น 3 ส่วนหลัก ดังต่อไปนี้ Pretraining Language Models จุดเริ่มต้น RLHF จะใช้ Language Model ที่ได้มีจากฝึกฝนกับคลังข้อมูลภาษาบางอย่างไว้ก่อนหน้าแล้ว (pretrained model) ซึ่งในช่วงเริ่มต้นทาง OpenAI ได้ใช้ pretrained model ที่ชื่อว่า GPT-3 สำหรับใครที่อยากรู้รายละเอียดเพิ่มเติมเกี่ยวกับ GPT-3 สามารถเข้าไปอ่านได้ที่บทความ GPT-3 คืออะไร? ปัญญาประดิษฐ์ที่จะมาแย่งงานคนทั่วโลกในอนาคต โดยโมเดลตั้งต้นนี้จะถูกนำมาฝึกฝนเพิ่มเติม (Fine-tune) กับข้อมูลที่เป็นข้อความ (text) ที่เราสนใจได้ เช่น OpenAI ที่มีการ Fine-tuned กับ ข้อความที่สร้างโดยมนุษย์ (human-generated text) เพิ่มเติม จากนั้น Language Model ที่ผ่านการ Fine-tune แล้ว จะถูกนำมาใช้ในการสร้างข้อมูลสำหรับการฝึกฝน Reward Model ซึ่งจะเป็นกระบวนการที่เริ่มมีส่วนของความคิดเห็นหรือการพิจารณาโดยมนุษย์ถูกผนวกรวมเข้าไปในระบบด้วย Reward Model Training Reward Model เป็นโมเดลย่อยอีกส่วนหนึ่งสำหรับการเรียนรู้แบบ RLHF โดยการฝึกฝน Reward Model นี้ มีวัตถุประสงค์เพื่อสร้างโมเดลที่สามารถจำลองการตัดสินใจการให้คะแนนของมนุษย์ เนื่องจากเราไม่สามารถให้มนุษย์มานั่งให้ Feedback ของผลลัพธ์ข้อความที่ถูกสร้างจาก Language Model ทั้งหมดได้ว่าคำตอบแบบไหนที่เป็นคำตอบที่ดี หรือแบบไหนเป็นคำตอบที่ไม่ดี โดยโมเดลนี้จะถูกนำไปใช้ในการให้คะแนนผลลัพธ์ที่ได้จาก Language Model ซึ่งจะเป็นค่า Reward ที่จะนำไปใช้ในการปรับพารามิเตอร์ของ Reinforcement Learning Model เพื่อให้ได้ Language Model ที่ได้ Reward มากขึ้น ซึ่งกลไกนี้เองจะทำให้โมเดลได้เรียนรู้ในการสร้างข้อความให้มีความถูกต้อง เหมาะสม และดูเป็นธรรมชาติตามการรับรู้ของมนุษย์ สำหรับชุดข้อมูลที่ใช้ในการฝึกฝน Reward Model นี้จะถูกสร้างมาจาก Language Model ที่ได้ทำการฝึกฝนในขั้นตอนก่อนหน้า โดยจะเริ่มจากใส่ input เป็นชุดข้อความให้กับ Language Model ตั้งต้น โดยในที่นี้ทาง OpenAI ได้ใช้ชุดข้อมูล prompts ที่รวบรวมมาจากการระบุโดยผู้ใช้ตอนเรียกใช้ API ของ GPT จากนั้น Language Model จะสร้างข้อความที่เป็นผลลัพธ์ออกมา ซึ่งข้อความที่ได้จาก Language Model นี้จะถูกใช้เป็น input สำหรับการฝึกฝน Reward Model ต่อไป ในกระบวนการฝึกฝน Reward Model จะมีส่วนของการให้คะแนนโดยมนุษย์ (Human Annotators) เพื่อใช้ในการจัดอันดับ (ranking) ให้กับข้อความที่ถูกสร้างมาจาก Language Model ซึ่งค่า Ranking นี้จะถูกใช้เป็นผลลัพธ์สำหรับการฝึกฝน Reward Model โดยการให้คะแนนข้อความผลลัพธ์นั้นมีหลากหลายวิธี โดยหนึ่งในนั้นคือการให้ผู้ให้คะแนนเปรียบเทียบผลลัพธ์ข้อความที่ถูกสร้างจาก Language Model 2 โมเดล ว่าผลลัพธ์จากโมเดลไหนดีกว่ากัน แล้วใช้เทคนิคที่ชื่อว่า Elo System เพื่อทำการคำนวณ Ranking ของผลลัพธ์แต่ละแบบ ถึงจุดนี้สำหรับกระบวนการ RLHF เราจะได้ Language Model ตั้งต้นที่สามรถใช้ในการสร้างข้อความ และ Reward Model ที่รับข้อความใด ๆ และให้ค่าคะแนนสำหรับข้อความนั้น ๆ ขั้นตอนถัดไปจะเป็นการฝึกฝน Language Model เพิ่มเติมด้วยกระบวนการ Reinforcement Learning (RL) เพื่อปรับค่าพารามิเตอร์ต่างๆของ Language Model ให้สามารถสร้างข้อความที่ได้ Reward หรือคะแนนจาก Reward Model สูงสุดได้ Fine-tuning with Reinforcement Learning ส่วนนี้เป็นการ Fine-tune หรือการปรับค่าพารามิเตอร์ของ Language Model ใหม่ที่ได้ทำการ Copy ค่าพารามิเตอร์ต่าง ๆ มาจาก Language Model ตั้งต้นให้เข้าใกล้จุดที่ดีทีสุดหรือได้ Reward มากที่สุด โดยใช้อัลกอริทึมที่ชื่อว่า Proximal Policy Optimization (PPO) โดยค่าพารามิเตอร์บางส่วนของ Language Model จะถูกบังคับไม่ให้เปลี่ยนแปลงค่า (Frozen) เนื่องจากการทำ Fine-tuning สำหรับพารามิเตอร์จำนวนมหาศาลนั้นค่อนข้างจะใช้ทรัพยากรค่อนข้างเยอะ จึงทำการลดให้เหลือจำนวนพารามิเตอร์ที่น้อยลงในการปรับค่า สำหรับเทคนิค PPO นั้นเป็นกระบวนการในการปรับค่าพารามิเตอร์เพื่อให้สามารถเข้าใกล้จุด Optimal ได้ดีที่สุด มีการพัฒนามานานแล้ว ถ้าใครอยากลองศึกษารายละเอียดเพิ่มก็สามารถเข้าไปอ่านหลักการได้ที่เว็บไซต์ของ Hugging Face ก่อนอื่นลองมาทำความเข้าใจกระบวนการการทำ Fine-tune นี้ในรูปแบบของโจทย์ Reinforcement Learning (RL) กัน สำหรับในโจทย์นี้ Policy ของ Reinforcement Learning ก็คือตัว Language Model ที่มีหน้าที่รับข้อความเข้าและส่งผลลัพธ์ ออกมาเป็น Sequence ของข้อความ หรือข้อความที่น่าจะเป็นข้อความลำดับถัดไปออกมา โดยที่ Action Space ของ Policy นี้คือคำศัพท์ที่เป็นไปได้ทั้งหมดตามคลังคำศัพท์ที่มีใน Language Model ส่วน Observation Space คือ Token Sequence...

9 May 2023

บทความ

Movements

ก้าวแรกจากงานวิจัยสู่โลกแห่งความจริงของ MuZero

ในปี 2016 Deepmind ได้แสดงความสามารถของ AI AlphaGo ที่สามารถเอาชนะแชมป์โลกในเกมกระดานอย่างหมากล้อม ซึ่งเป็นเกมที่โปรแกรมทั่วไปไม่สามารถเอาชนะมนุษย์ได้มาก่อน ต่อจากนั้นมา Deepmind ก็ได้พัฒนา AI มาเรื่อย ๆ โดยมี AlphaZero และ MuZero ที่ได้ถูกพัฒนาขึ้นมาตามลำดับ การพัฒนา AI ของ Deepmind นั้นมีจุดประสงค์ที่จะทำให้ AI สามารถเรียนรู้ได้หลากหลายมากยิ่งขึ้น และใช้ความรู้เริ่มต้นน้อยลง ตัวอย่างเช่น MuZero สามารถชนะมนุษย์ในเกมหมากล้อม หมากรุก โชกิ และเกมบน Atari โดยไม่จำเป็นที่จะต้องรู้กฎของเกมเลยด้วยซ้ำ แต่ผลงานทั้งหมดที่กล่าวมาเป็นเพียงแค่การเรียนรู้เกม Deepmind จึงได้ตั้งเป้าหมายถัดไปเป็นการแก้ไขปัญหาในชีวิตจริง โดยโจทย์แรกของ MuZero ในการก้าวเข้าสู่โลกแห่งความจริง คือการ Optimize วิดีโอบน YouTube การ Optimize วิดีโอมีความสำคัญเป็นอย่างมาก เนื่องจากปริมาณการใช้งานวิดีโอในปัจจุบันสูงขึ้นมาก ถ้าหากทำการบีบอัดวิดีโอ (Video compression) ได้ดี ก็จะสามารถลด traffic บนอินเตอร์เน็ตได้มหาศาล และเป็นโจทย์ที่เหมาะกับ MuZero ซึ่งใช้การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning: RL) เพื่อพัฒนาวิธีการย่อขนาดวิดีโอให้ดีกว่าเดิม ผลการศึกษาพบว่า MuZero สามารถลด bitrate ของวิดีโอได้เฉลี่ย 4% หากใครสนใจผลการวิจัยฉบับเต็มสามารถดูได้ที่นี่ วิดีโอในแพลตฟอร์มออนไลน์ส่วนใหญ่จะใช้โปรแกรมที่เรียกว่า codec เพื่อบีบอัดหรือเข้ารหัสวิดีโอจากต้นทางของผู้อัปโหลด ส่งข้อมูลผ่านอินเตอร์เน็ต และแปลงข้อมูลกลับเพื่อแสดงวิดีโอที่ปลายทาง โปรแกรม codec จะต้องตัดสินใจเลือกตัวเลือกหลายอย่างในทุก ๆ เฟรมของวิดีโอ โดยวิธีการตัดสินใจของ codec ก็เป็นศาสตร์ที่ได้มีการพัฒนาโดยนักวิจัยและวิศวกรมานับสิบปี อย่างไรก็ตาม อัลกอริทึมแบบ RL มีความเหมาะสมกับการแก้ปัญหาที่เกี่ยวกับการตัดสินใจอย่างต่อเนื่องแบบนี้ ทาง Deepmind จึงเห็นว่าเป็นโจทย์ที่น่าลองนำ MuZero มาเรียนรู้ และศึกษาว่าจะนำ AI มาช่วยวงการวิดีโอได้อย่างไรบ้าง ในบทความนี้เราจะโฟกัสไปที่ VP9 codec (โดยใช้ opensource libvpx) ซึ่งเป็น codec ที่ใช้กันอย่างแพร่หลายบน YouTube ในการใช้ VP9 ผู้ใช้งานจะต้องคำนึงถึง bitrate (จำนวน 0 หรือ 1 ที่ใช้ในแต่ละเฟรมของวิดีโอ) ซึ่งค่า bitrate จะส่งผลต่อขนาดของวิดีโอเป็นอย่างมาก การทำ Optimization ใน VP9 จะทำบน Rate Control Module โดยใช้ตัวแปร Quantisation Parameter (QP) ในการปรับค่า bitrate (ค่า QP มาก จะทำให้ bitrate ต่ำ และค่า QP น้อยทำให้ bitrate สูง) สิ่งที่เราต้องการคือ maximize คุณภาพของวิดีโอ (วัดคุณภาพจากค่า Peak Signal-to-Noise Ratio: PSNR) โดยที่มีข้อจำกัดคือขนาดของวิดีโอต้องเล็กกว่าค่าที่ผู้ใช้งานกำหนด สิ่งที่โปรแกรมจะต้องทำก็คือปรับเฟรมที่มีการเคลื่อนไหวมาก ๆ ให้มี bitrate สูง (QP ต่ำ) และในทางตรงข้าม ปรับให้เฟรมที่มีการเคลื่อนไหวน้อย ๆ ให้มี bitrate ต่ำ (QP สูง) ปัญหาที่ Deepmind พบจากการลองให้ MuZero แก้โจทย์ Optimization ดังกล่าวโดยตรงคือ ผลที่ได้นั้นอ่อนไหวต่อค่า learning rate ของโมเดลเป็นอย่างมาก ทำให้ปรับจูนโมเดลได้ยาก นอกจากนั้น MuZero ไม่สามารถหาวิธีการที่ดีที่สุดออกมาวิธีเดียวได้ เนื่องจากวิดีโอมีความหลากหลายมาก ทาง Deepmind จึงเสนอวิธีการเรียนรู้ของโมเดลด้วยการแข่งขันกับตัวเอง โดยจะให้รางวัลโมเดลก็ต่อเมื่อโมเดลสร้างวิดีโอผลลัพธ์ที่คุณภาพดีกว่าผลงานของตัวเองในอดีต การกำหนดเป้าหมายแบบนี้เปลี่ยนการ maximize คุณภาพของวิดีโอ ให้กลายเป็นสัญญาณง่าย ๆ เพียงแค่ ชนะ หรือแพ้เท่านั้น ทำให้เทรนโมเดลได้ง่ายขึ้นมาก ประหยัด bitrate ไปได้ 4.7 % ประหยัด bitrate ไปได้ 4.1 % ประหยัด bitrate ไปได้ 3.5 % ผลที่ได้จากการให้ MuZero เรียนรู้วิธีการ Optimize วิดีโอด้วยการแข่งขันกับตัวเอง คือโมเดล MuZero Rate-Controller (MuZero-RC) ซึ่งสามารถลดขนาดของวิดีโอได้ 4% โดยเฉลี่ย โดยที่ไม่ลดคุณภาพของวิดีโอ และมีความสามารถในการ generalize โดยผ่านการทดสอบด้วยวิดีโอที่มีความหลากหลายทั้งในเชิงเนื้อหา และคุณภาพของวิดีโอ บนแพลตฟอร์ม YouTube ผลงานครั้งนี้ของ MuZero แสดงให้เห็นถึงศักยภาพของ AI ที่สามารถเรียนรู้วิธีการ Optimize วิดีโอได้โดยไม่ต้องใช้ข้อมูลนอกเหนือไปจากวิดีโอที่ใช้ให้ AI เรียน โดยมีผลลัพธ์ที่ไม่แย่ไปกว่าผลจากการวิจัยด้านการ Optimize codec นับสิบปี และนี่ก็คือก้าวแรกของ MuZero ในการแก้ไขปัญหาในชีวิตจริง และ Deepmind จะมุ่งหน้าสู่การสร้างอัลกอริทึมที่สามารถ แก้โจทย์ได้นับพันโจทย์ได้ด้วยอัลกอริทึมเดียว บทความโดย MuZero Applied Team เนื้อหาจากบทความ MuZero’s first step from research into the real world แปลและเรียบเรียงโดย พชร วงศ์สุทธิโกศล ตรวจทานและปรับปรุงโดย อิสระพงศ์ เอกสินชล

3 June 2022

บทความ

Movements

ปัญญาประดิษฐ์ (AI) ที่ทำงานโดยการเรียนรู้จากความผิดพลาด

การระบาดของโรคโควิด19 ทำให้เกิดการชะลอตัวของการเจริญเติบโตทางเศรษฐกิจไปทั่วโลก การใช้ AI ก็เป็นอีกหนึ่งทางออกในการพลิกวิกฤตินี้ให้กลายเป็นโอกาสในการชนะคู่แข่ง

4 March 2021

บทความ

Big Data 101

มาทำความรู้จักกับ การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning)

เคยสงสัยมั้ยว่า AI อย่าง AlphaGo, OpenAi แต่เคยสงสัยกันมั้ยว่า AI พวกนี้รู้ได้อย่างไรว่าจะต้องตัดสินใจอย่างไร มาทำความรู้จักกับ Reinforcement Learning กัน

4 November 2020

รู้จัก BDI

Organization

Policy and Plan

Personnel

Operations