Natural Language Processing Tag - Big Data Institute

ข่าวและบทความที่เกี่ยวข้อง

บทความ

หรือว่า AI จะไม่เก่งจริง!! - สาเหตุที่ทำให้ AI ยังไม่ถูกนำมาใช้ในชีวิตจริงมากเท่าที่ควร

ตั้งแต่การเรียนรู้เชิงลึก (Deep Learning) ถูกพัฒนาขึ้น ปัญญาประดิษฐ์ก็เข้ามามีบทบาทในชีวิตมนุษย์อย่างมาก ในหลายรูปแบบ ตั้งแต่ในแอปพลิเคชันบนสมาร์ตโฟน กล้องวงจรปิดที่ใช้ตามบ้าน แม้แต่โปรโมชันที่แบรนด์สินค้าเสนอให้กับเราในฐานะลูกค้าในหลายครั้งก็เป็นผลจากการใช้ปัญญาประดิษฐ์ เพื่อประมวลผลทางสถิติว่าโปรโมชันแบบไหนที่แต่ละคนจะตัดสินใจซื้อมากที่สุด ซึ่งในหลายครั้งมันก็ทำให้ลูกค้าจ่ายเงินซื้อสินค้าจากการแนะนำสินค้าได้ตรงใจ หรือแม้กระทั่งการแนะนำวิดีโอในแอปพลิเคชัน TikTok หรือ YouTube เพื่อดึงดูดความสนใจของผู้ใช้ให้รับชมคอนเทนท์ที่ชื่นชอบในระยะเวลาที่ยาวนานที่สุด โดยใช้เทคนิคต่าง ๆ อาทิเช่น Computer Vision เพื่อให้ระบบสามารถแยกแยะเนื้อหาของวีดีโอ และ Natural Language Processing ที่นำมาใช้แยกแยะเนื้อหาที่เป็นภาษา ( ai คือ อะไร ) ความสามารถของปัญญาประดิษฐ์ที่มนุษย์สร้างขึ้นถูกพัฒนาจนเริ่มที่จะเก่งกว่ามนุษย์ในหลายทักษะ หนึ่งในงานทดลองที่เป็นรู้จักคือการสอนให้คอมพิวเตอร์เล่นเกมเพื่อเอาชนะมนุษย์ หรือแม้กระทั่งในเกมที่ซับซ้อนอย่างหมากล้อม ก็สามารถเอาชนะมนุษย์ไปได้จนเป็นข่าวดังไปทั่วโลก จนในบางครั้งก็ทำให้เกิดความหวาดกลัวในปัญญาประดิษฐ์ว่ามันจะทำอะไรที่เป็นอันตรายต่อมนุษย์เหมือนกับในภาพยนตร์ชื่อดังหลายเรื่องหรือไม่ สื่อสังคมออนไลน์ถึงกับตื่นตระหนกกับข่าวที่ปัญญาประดิษฐ์ของ Facebook สร้างภาษาของตัวเองขึ้นมา และให้ความเห็นกันไปต่าง ๆ นานา ในฐานะของผู้ที่มีประสบการณ์วิจัยเกี่ยวกับปัญญาประดิษฐ์มา ผู้เขียนสามารถบอกได้อย่างมั่นใจว่า “ปัญญาประดิษฐ์จะยังไม่ครองโลกในเร็ว ๆ นี้แน่นอน” เพราะความเก่งกาจจากการเรียนรู้ข้อมูลของปัญญาประดิษฐ์นั้นยังมีข้อจำกัดอย่างมาก ตัวอย่างหนึ่งที่เห็นได้ชัดเจนคือการที่เทคโนโลยี Self-Driving Car อย่างเต็มรูปแบบ (ไม่นับระบบช่วยเหลือในการขับอย่าง Cruise Control) ถูกเคยถูกพูดถึงกันมาอย่างยาวนานในวงการวิจัยนั้น ในขณะที่เขียนบทความนี้ (ตุลาคม 2565) เทคโนโลยีนี้ถูกใส่เข้ามาในรถยนต์ของผู้ให้บริการเพียงไม่กี่รายที่มีความสามารถในการวิจัยเทคโนโลยีที่ล้ำสมัยอย่างเช่น Tesla ซึ่งก็ยังมีข้อจำกัดอยู่ และก็ยังมีรายงานการเกิดอุบัติเหตุอยู่บ้างเช่นกัน บทความนี้เราจะมาดูกันว่าข้อจำกัดอะไรบ้างที่ปัญญาประดิษฐ์ต้องก้าวข้ามไปให้ได้ และตัวอย่างของความอ่อนด้อยของปัญญาประดิษฐ์ในสิ่งที่เรื่องง่ายสำหรับมนุษย์ 1. Domain Shift – โมเดลเรียนรู้และเก่งในเรื่องที่มีข้อมูลเท่านั้น และประสิทธิภาพลดลงอย่างมากเมื่อสภาพแวดล้อมเปลี่ยนไป เป็นเรื่องจริงที่ปัญญาประดิษฐ์นั้นเรียนรู้จนเก่งในหลายเรื่อง แต่ความเก่งนั้นก็จำกัดอยู่กับสิ่งแวดล้อมที่มันเคยเรียนรู้มาเท่านั้น เมื่อสภาพแวดล้อมเปลี่ยนไปจากเดิม ประสิทธิภาพในการทำงานและการตัดสินใจก็จะเปลี่ยนไปอย่างมาก ปัญหานี้เป็นที่รู้จักกันในหลายชื่อเรียก เช่น Domain Shift, Distribution Shift, และ Data Drift เป็นต้น ซึ่งต่างก็มีความหมายที่คล้ายกัน คือการที่โดเมน (ขอบเขต) ของข้อมูลที่ปัญญาประดิษฐ์รับเข้าระบบ (Input) เปลี่ยนแปลงไปจากเดิม ตัวอย่างเช่นถ้าเราให้โมเดลเรียนรู้ข้อมูลที่มีการแจกแจงแบบหนึ่ง แต่พอนำโมเดลไปใช้จริงกลับมีการแจกแจงอีกแบบหนึ่ง ดังที่เห็นจากในตัวอย่างภาพการแจกแจงด้านบน ก็จะมีความเสี่ยงสูงที่การนำไปใช้จริงจะลดประสิทธิภาพของโมเดลนี้ หรือในกรณีของข้อมูลภาพที่เป็นถนนและสภาพจราจร การที่ข้อมูลที่ใช้สอนปัญญาประดิษฐ์ส่วนมากจะถูกเก็บมาจากช่วงเวลากลางวัน ซึ่งสภาพแสงต่างจากกลางคืนอย่างชัดเจน เมื่อนำมาใช้ประมวลผลกับภาพที่ได้ในเวลากลางคืนก็มีแนวโน้มที่ความถูกต้องในการทำงานจะลดลง การสอนระบบด้วยภาพในเมือง แต่นำไปใช้กับภาพถนนในชนบท หรือแม้แต่ในเงามืดที่แสงน้อยเองก็เช่นกันตามภาพที่ด้านล่าง 2. Catastrophic Forgetting – เรียนเรื่องใหม่ ลืมเรื่องเก่า การแก้ปัญหาในข้อที่ 1 แบบง่าย ๆ ก็คือการนำเอาข้อมูลในสิ่งแวดล้อมปัจจุบันที่ปัญญาประดิษฐ์พบเจออยู่ในขณะนั้นมาสอนระบบในทันที เพื่อให้มันสามารถปรับตัวกับสภาพแวดล้อมใหม่ ซึ่งก็สร้างปัญหาใหม่ขึ้นมาถึง 2 เรื่อง เรื่องแรกคือบริษัทที่เป็นผู้ให้บริการก็ต้องจ้างคนมาเพื่อสร้าง Label (หรือก็คือเฉลยของคำถาม) ในการสอนปัญญาประดิษฐ์ ซึ่งในงานประเภท Semantic Segmentation จะพบว่าการสร้าง Label นั้นค่อนข้างยาก ใช้เวลานาน และนำมาซึ่งต้นทุนที่สูงขึ้น เรื่องที่สองที่จะเจอคือปัญหาที่เรียกว่า Catastrophic Forgetting หรือคือการเรียนเรื่องใหม่แล้วลืมเรื่องเก่า ปัญหานี้เกิดขึ้นเมื่อเรานำเอาข้อมูลใหม่เข้ามาสอนให้กับปัญญาประดิษฐ์เพื่อให้สามารถประมวลผลในโดเมนปัจจุบันได้ถูกต้อง แต่เมื่อนำโดเมนของข้อมูลเปลี่ยนกลับไปเป็นโดเมนเดิมในตอนต้น ความถูกต้องในการประมวลผลก็จะลดลง เพราะปัญญาประดิษฐ์ได้ทำการเรียนรู้กับข้อมูลในโดเมนใหม่และได้ลืมความรู้ในโดเมนเก่าไปแล้ว 3. Out-of-Distribution – ปัญญาประดิษฐ์มักไม่รู้ตัวว่าตนเองไม่มีความรู้ การใช้งานปัญญาประดิษฐ์ในโลกความเป็นจริงที่เป็นสิ่งแวดล้อมแบบเปิด (Open World) มักจะมีสิ่งที่ระบบไม่เคยเรียนรู้มาก่อนอยู่เสมอ โดยเฉพาะเมื่อพูดถึงโมเดลเพื่อการจำแนกประเภท (Classification Model) ที่ต้องระบุหมวดหมู่ (Class) ของการจำแนกที่ชัดเจนตั้งแต่ตอนที่นำข้อมูลมาเพื่อสอน ในขณะที่เมื่อนำเอาไปใช้จริงแล้วมักจะเจอกับข้อมูลที่อยู่ในหมวดหมู่ใหม่ที่ไม่เคยเรียนรู้มาก่อน สิ่งนี้เป็นเพราะในงานข้อมูลบางประเภท เช่น ภาพ หรือภาษา มีหมวดหมู่ที่ไม่แน่นอน เราไม่สามารถนำเอาทุกความเป็นไปได้ของข้อมูลมาสอนให้กับปัญญาประดิษฐ์ได้ หรือถ้าทำได้ เมื่อเวลาผ่านไปย่อมมีข้อมูลใหม่เกิดขึ้นอยู่เสมอ ดังนั้นการที่ระบบสามารถระบุได้เมื่อเจอข้อมูลที่แตกต่างออกไปจากเดิมนั้นเป็นสิ่งสำคัญมาก ถ้าเป็นปัญญาประดิษฐ์ที่ใช้แยกแยะสายพันธุ์สุนัขจากภาพ เมื่อผู้ใช้นำภาพของแมวหรือนกมาให้จำแนกสายพันธุ์ ก็ควรจะต้องบอกได้ว่าสิ่งนั้นไม่ใช่สุนัข หรือถ้ามีสายพันธุ์ใหม่ที่ไม่เคยเจอ ก็ควรจะบอกผู้ใช้ได้ว่าไม่รู้จักสายพันธุ์นั้น ในกรณีของระบบที่เป็น Self-Driving Car อาจจะมีการใช้ปัญญาประดิษฐ์ที่เรียนรู้วัตถุต่าง ๆ จากภาพ เมื่อเจอวัตถุหรือสิ่งมีชีวิตบนท้องถนนที่ไม่เคยเจอมาก่อน ก็ควรจะออกแบบให้สามารถส่งต่อความไม่มั่นใจดังกล่าวให้กับมนุษย์ ให้คนขับเป็นผู้ตัดสินใจเองว่าจะขับต่อไป หรือเลี่ยงเส้นทาง 4. Calibration – ค่าความมั่นใจของคำตอบควรจะบอกความน่าจะเป็นที่คำตอบนั้นจะถูกต้อง แน่นอนว่าไม่มีใครถูกเสมอ การทำนายหรือตอบคำถามของปัญญาประดิษฐ์นั้นก็เช่นเดียวกัน แต่ปัญหาก็คือ บ่อยครั้งที่พบว่าคำตอบของปัญญาประดิษฐ์ในงานจำแนกหมวดหมู่ (Classification) มักมาพร้อมกับค่าความมั่นใจที่มากเกินควร (ค่าความมั่นใจ หรือ Predicted Probability เป็นค่าที่คำนวณออกมากับคำตอบ) ถ้าค่าความมั่นใจถูกต้อง เมื่อจำเอาตัวอย่างที่โมเดลมีค่าความมั่นใจที่ 0.8 หรือ 80% ทั้งหมดมา เราควรจะพบว่าคำตอบควรจะถูกต้องอยู่ที่ 80% จากข้อมูลทั้งหมดด้วยเช่นกัน ตัวอย่างเช่นปัญญาประดิษฐ์ที่ใช้จำแนกสายพันธุ์สุนัขจากภาพ ถ้าเราพบว่ามีภาพสุนัขทั้งหมด 1,000 ภาพที่ถูกจำแนก พร้อมกับมีค่าความมั่นใจที่ 0.8 ทั้งหมด เราก็ควรจะคาดหวังได้ว่าการจำแนกจะถูกต้องประมาณ 800 ภาพ หรือก็คือ 80% ค่าความมั่นใจดังกล่าวย่อมส่งผลต่อการตัดสินใจเชื่อหรือไม่เชื่อคำตอบนั้น และการกระทำต่าง ๆ ที่ตามมาจากข้อสรุปนั้นทั้งหมด ถ้าโมเดลทำนายหุ้นบอกว่าหุ้น A จะขึ้นด้วยความมั่นใจ 70% เราก็อาจจะลงทุนด้วยจำนวนเงินที่น้อย แต่ลงเงินกับหุ้น B ที่โมเดลบอกว่าขึ้น 95% เป็นต้น อย่างไรก็ดีจากการศึกษาพบว่าปัญญาประดิษฐ์สมัยใหม่ที่ใช้ Deep Neural Network ที่มีชั้นและความซับซ้อนมาก มักพบว่าให้ค่าความมั่นใจที่ไม่ตรงกับอัตราความถูกต้องของคำตอบจริง 5. Explainability – ตัดสินใจแล้วควรจะต้องอธิบายได้ว่าเพราะอะไร เมื่อเราใช้ปัญญาประดิษฐ์ตัดสินใจบางอย่างแล้วเกิดผลที่ตามมา ซึ่งอาจเป็นสิ่งที่ไม่พึงประสงค์สำหรับบางคน เช่น เมื่อสแกนใบหน้าไม่ผ่านทำให้เข้าประตูไม่ได้ หรือปัญญาประดิษฐ์ประเมินราคารถยนต์จากภาพถ่ายตีราคาออกมาต่ำกว่าที่ผู้เสนอขายคาดหวัง เป็นต้น สิ่งเหล่านี้ควรสามารถอธิบายเหตุผลของการทำนายนั้นได้ด้วย การสแกนใบหน้าที่ไม่ผ่านอาจเป็นเพราะผู้ใช้ลืมถอดแว่นกันแดด ระบบก็อาจจะบอกเหตุผลเพื่อให้ปรับปรุงและลองอีกครั้ง ยิ่งความซับซ้อนมีมากขึ้นเท่าไหร่ ความยากในการอธิบายเหตุผลก็มีมากขึ้นเรื่อย ๆ ในความเป็นจริงแล้วระบบสามารถอธิบายออกมาได้เพียงระดับเบื้องต้น เช่นในกรณีของข้อมูลภาพ อาจจะมีการทำ Heatmap บอกว่าส่วนไหนของภาพที่ส่งผลต่อการตัดสินใจ แต่ก็ไม่สามารถบอกเป็นเหตุผลมาอย่างชัดเจนได้ว่าเพราะอะไร ในกรณีที่ระบบมีการตัดสินใจที่ส่งผลต่อความปลอดภัยของผู้ใช้อย่าง Self-Driving Car การตัดสินใจบางอย่างที่นำมาซึ่งความผิดพลาดและอาจทำให้เกิดการสูญเสียทรัพย์สิน หรืออาจถึงขั้นเสียชีวิต การอธิบายได้ว่าระบบตัดสินใจอะไร เพราะอะไร ช่วยเพิ่มความมั่นใจของผู้ใช้ระบบ เพราะจะทำให้มั่นใจได้ว่าการตัดสินใจต่าง ๆ นั้นอยู่บนหลักการและเหตุผลที่ถูกต้อง และมีส่วนสำคัญอย่างมากเมื่อต้องสืบหาสาเหตุของอุบัติเหตุที่อาจเกิดขึ้นอย่างไม่คาดคิด ปัญหาทั้งหมดที่เล่ามาทำให้การใช้งานปัญญาประดิษฐ์ในชีวิตจริงยังไม่แพร่หลายเท่ากับการที่นักวิเคราะห์เทรนด์ของอนาคตบอกไว้ นักวิจัยยังคงต้องใช้เวลาอีกสักพักเพื่อที่จะเข้าใจการทำงานของมันให้มากขึ้น และนำเสนอวิธีการที่จะทำให้ได้ผลลัพธ์ตามที่ต้องการ ซึ่งวิธีการนั้นอาจนำมาซึ่งการใช้ทรัพยากรมนุษย์ในการพัฒนาปัญญาประดิษฐ์ที่มากขึ้น หรือทรัพยากรคอมพิวเตอร์เพื่อการประมวลผล ซึ่งอาจต้องใช้เงินจำนวนมหาศาลในการเอาชนะปัญหาเหล่านี้ ผู้เขียนในฐานะอดีตนักวิจัยก็ยังติดตาม เอาใจช่วย และคาดหวังให้เทคโนโลยีปัญญาประดิษฐ์นั้นก้าวหน้าขึ้นในทุกวัน ด้วยความเชื่อที่ว่ามันจะมาช่วยทำให้ชีวิตมนุษย์ดีขึ้นได้ในอนาคต เนื้อหาโดย อิงครัต เตชะภาณุรักษ์ตรวจทานและปรับปรุงโดย พีรดล สามะศิริ

4 November 2022

บทความ

Big Data 101

Natural Language Processing (NLP): เครื่องมือที่ช่วยให้คอมพิวเตอร์เข้าใจภาษามนุษย์

ถึงแม้ว่าการวิเคราะห์ข้อมูลต่าง ๆ และการสร้างแบบจำลองจากข้อมูลเหล่านั้นด้วยศาสตร์ทางด้านการเรียนรู้ของเครื่อง (Machine Learning) จะเกี่ยวข้องกับข้อมูลที่มีโครงสร้าง (Structured Data) เช่น ข้อมูลเชิงตาราง (Tabular Data) เป็นส่วนใหญ่ แต่ทว่าในโลกความเป็นจริง ข้อมูลบนโลกดิจิทัลในปัจจุบันมากกว่า 80% เป็นข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data) เช่น ไฟล์ภาพ เสียง หรือ วีดิโอ รวมถึงข้อมูลในลักษณะของข้อความ อาทิ เนื้อหาในบทความต่าง ๆ การโพสต์ข้อความบนโซเชียลมีเดีย การตอบกระทู้บนเว็บบอร์ด บทสัมภาษณ์ของนักกีฬาและนักการเมือง และการแสดงความคิดเห็นต่อสินค้าบนแพลตฟอร์มพาณิชย์อิเล็กทรอนิกส์ (E-commerce Platform) ทั้งนี้ การวิเคราะห์ข้อมูลในลักษณะดังกล่าวจำเป็นต้องอาศัยศาสตร์เฉพาะทางที่มีชื่อเรียกเพราะ ๆ ว่า การประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP) เพื่อช่วยให้คอมพิวเตอร์เข้าใจภาษาที่ซับซ้อนของมนุษย์ โดยเราจะมาทำความรู้จักกับมันให้มากขึ้นในบทความนี้ ซึ่งจะขอเรียกชื่อพระเอกของเราสั้น ๆ ด้วยชื่อย่อว่า “NLP” ดังนั้น หากไม่มีกระบวนการที่เหมาะสมในการนำข้อมูลเหล่านั้นมาใช้ประโยชน์ มันก็จะเป็นเพียงแค่ชุดของตัวอักษรซึ่งไม่สามารถสร้างมูลค่าหรือองค์ความรู้ใด ๆ ให้กับองค์กรได้ วิวัฒนาการและความสำคัญของ NLP การประมวลผลภาษาธรรมชาติ (NLP) เป็นศาสตร์ที่สำคัญทางด้าน Machine Learning โดยมันเป็นสาขาวิชาหนึ่งที่ประกอบด้วยองค์ความรู้จากหลากหลายแขนง อาทิ ภาษาศาสตร์ (Linguistics) วิทยาการคอมพิวเตอร์ (Computer Science) ปัญญาประดิษฐ์ (Artificial Intelligence: AI) รวมถึงสถิติ (Statistics) โดยมีจุดมุ่งหมายเพื่อให้คอมพิวเตอร์สามารถทำความ “เข้าใจ” ข้อมูลที่มีลักษณะเป็นข้อความหรือคำพูดเฉกเช่นเดียวกับที่มนุษย์ที่ทำได้ ซึ่งไม่ใช่เพียงแค่เข้าใจความหมายโดยตรงของข้อความนั้น ๆ แต่ยังรวมถึงการรับรู้ถึงความหมายโดยนัย ความรู้สึกของผู้เขียน ความแตกต่างทางบริบทของภาษา รวมถึงสามารถทำการวิเคราะห์ในรูปแบบต่าง ๆ ได้อีกด้วย โดย NLP มีจุดกำเนิดมาตั้งแต่ช่วงกลางศตวรรษที่ 19 และได้มีการพัฒนาต่อยอดมาเรื่อย ๆ จนถึงปัจจุบัน โดยในที่นี้เราขอแบ่งช่วงวิวัฒนาการของ NLP ออกเป็น 3 ยุค ดังต่อไปนี้ ในยุคแรก NLP ถูกใช้งานด้วยวิธีการตามกฎ (Rule-based Method) โดยนักภาษาศาสตร์ผู้มีความเชี่ยวชาญโครงสร้างของภาษาที่สนใจ จะเป็นผู้เขียนกฎต่าง ๆ ขึ้นมา เพื่อให้คอมพิวเตอร์สามารถนำไปคำนวนเพื่อหาคำตอบของโจทย์ที่ต้องการได้ ในยุคต่อมา พบว่าการเขียนกฎด้วยมือไม่สามารถตอบสนองต่อโจทย์ที่มีความซับซ้อนมาก ๆ ได้ อย่างไรก็ตาม สิ่งที่ได้มาทดแทนในยุคนี้คือ ประสิทธิภาพของเครื่องคอมพิวเตอร์ รวมถึงความรู้ทางด้านสถิติ และ Machine Learning ซึ่งได้ถูกนำมาพัฒนาเพื่อใช้ในการทำงานด้าน NLP โดยมีการนำเข้าข้อมูลเพื่อให้คอมพิวเตอร์สามารถเรียนรู้ด้วยตนเองแทนการใช้ผู้เชี่ยวชาญทางด้านภาษา ในยุคปัจจุบัน ด้วยพลังการคำนวนของคอมพิวเตอร์ที่มีการพัฒนาสูงขึ้นอย่างต่อเนื่อง ทำให้เทคโนโลยีที่มีความซับซ้อนสูงอย่าง การเรียนรู้เชิงลึก (Deep Learning) ถูกนำมาใช้งานแทนที่ Machine Learning ซึ่งใช้ความรู้ทางด้านสถิติแบบดั้งเดิม อย่างแพร่หลายมากขึ้น รวมถึงในงานด้าน NLP ด้วยเช่นกัน อาทิ การสร้างแบบจำลองทางภาษา (Language Model) และการวิเคราะห์โครงสร้างของข้อความ (Parsing) โดยสิ่งสำคัญที่ทำให้ NLP ได้รับความสนใจอย่างแพร่หลายและมีการพัฒนาอย่างต่อเนื่องมาตลอดหลายสิบปี คือความต้องการในการประมวลผลข้อมูลที่มีลักษณะเป็นข้อความในหลายภาคส่วน อาทิ ด้านการศึกษา ด้านธุรกิจ และด้านเทคโนโลยีการสื่อสาร ซึ่งล้วนแล้วแต่มีการป้อนข้อมูลดังกล่าวเข้าสู่โลกดิจิทัลเป็นปริมาณมหาศาลในทุก ๆ ปี ดังนั้น หากไม่มีกระบวนการที่เหมาะสมในการนำข้อมูลเหล่านั้นมาใช้ประโยชน์ มันก็จะเป็นเพียงแค่ชุดของตัวอักษรซึ่งไม่สามารถสร้างมูลค่าหรือองค์ความรู้ใด ๆ ให้กับองค์กรได้ ยิ่งไปกว่านั้น ในมุมมองขององค์กรซึ่งล้วนแล้วแต่เป็นผู้ผลิตและครอบครองข้อมูลทางภาษาขนาดใหญ่ในเอกสารทั้งหลาย ถ้าองค์กรใดสามารถปรับตัวเพื่อรับมือกับข้อมูลเหล่านั้นและสามารถนำ NLP มาประยุกต์ใช้ได้ก่อน องค์กรนั้นย่อมได้เปรียบกว่าอย่างแน่นอน ตัวอย่างเครื่องมือสำหรับงาน NLP เนื่องจากข้อมูลในรูปแบบของข้อความสามารถทำการวิเคราะห์ได้ในหลากหลายมุมมอง ดังนั้น เครื่องมือสำหรับงาน NLP จึงมีความหลากหลายเช่นเดียวกัน โดยในการทำโปรเจคหนึ่ง ๆ อาจมีความจำเป็นที่ต้องใช้เครื่องมือมากกว่าหนึ่งรายการ ซึ่งในที่นี้ จะมีการแนะนำเครื่องมือเบื้องต้นที่น่าสนใจสำหรับงาน NLP ตัวอย่างการประยุกต์ใช้ NLP ในด้านต่าง ๆ เนื่องด้วยปริมาณอันมหาศาลของข้อมูลลักษณะข้อความในปัจจุบัน ซึ่งมีบริบทและแหล่งกำเนิดข้อมูลที่หลากหลาย ส่งผลให้ NLP ได้รับการนำไปใช้เพื่อให้ก่อประโยชน์ในวงการต่าง ๆ อย่างมากมาย โดยส่วนนี้ จะทำการแนะนำตัวอย่างการประยุกต์ใช้เครื่องมือสำหรับงาน NLP ในด้านต่าง ๆ ที่น่าสนใจ ด้านการทำงานวิจัย วงการวิจัยเป็นหนึ่งในแหล่งของข้อมูลทางภาษาขนาดใหญ่ ซึ่งเปิดโอกาสให้ NLP สามารถเข้ามามีบทบาทได้อย่างหลากหลาย ตัวอย่างเช่น การประยุกต์ใช้ Topic Model ในการจัดหมวดหมู่เอกสารเพื่อวิเคราะห์หาหัวข้อของบทความงานวิจัย นอกจากนั้น ยังสามารถต่อยอดการทำ Word Embedding เพื่อแปลงประโยคหรือเอกสารให้เป็นเชิงปริมาณ และใช้ในการเปรียบเทียบความใกล้เคียงกันของข้อเสนอโครงการวิจัยได้อีกด้วย โดยแนวคิดเดียวกันนี้สามารถประยุกต์ใช้เพื่อตรวจสอบความคล้ายคลึงกันของเอกสารชนิดอื่น ๆ ได้เช่นเดียวกัน อาทิ คำขอสิทธิบัตร บทประพันธ์ และบทความในหนังสือพิมพ์ ด้านพาณิชย์อิเล็กทรอนิกส์ (E-commerce) ในปัจจุบัน การใช้จ่ายเพื่อสั่งซื้อสินค้าผ่านช่องทางออนไลน์อย่างแพลตฟอร์ม E-commerce เข้ามามีบทบาทสำคัญเป็นอย่างมากในระบบเศรษฐกิจ ซึ่งนอกจากจะก่อให้เกิดปริมาณการทำธุรกรรมที่มหาศาลแล้ว ยังมีการนำเข้าข้อมูลประเภทข้อความขนาดใหญ่เช่นเดียวกัน ไม่ว่าจะเป็น คำอธิบายสินค้าและบริการ การแสดงความคิดเห็นของผู้บริโภค รวมถึงการสนทนากันระหว่างผู้ซื้อและผู้ขายผ่านทางช่องแชท ดังนั้น จึงเปิดโอกาสให้ผู้ประกอบการสามารถนำเครื่องมือทาง NLP มาประยุกต์ใช้เพื่อก่อให้เกิดประโยชน์กับธุรกิจของตนได้ ตัวอย่างเช่น การใช้แบบจำลองทางภาษาเพื่อพัฒนาแชทบอทมาช่วยในการตอบแชทลูกค้า หรือการใช้ Sentiment Analysis เพื่อวิเคราะห์ความคิดเห็นของลูกค้าต่อสินค้าและบริการ ด้านการแพทย์ ข้อมูลทางการแพทย์มีจำนวนไม่น้อยที่มีลักษณะเป็นข้อความ ซึ่งสามารถนำไปใช้วิเคราะห์ต่อได้ ตัวอย่างเช่น บทสนทนาระหว่างแพทย์และผู้ป่วย การวินิจฉัยโรคโดยแพทย์ และประวัติการรักษาของผู้ป่วย ส่งผลให้มีการนำ NLP มาประยุกต์ใช้ในงานด้านนี้เช่นเดียวกัน ได้แก่ การวิเคราะห์ความรู้สึกของผู้ป่วยโดยใช้ Sentiment Analysis การระบุหมวดหมู่ของคำในประวัติผู้ป่วยออกเป็น ชื่อโรค ชื่อยา อาการ และอื่น ๆ โดยใช้ NER รวมถึงการตรวจสอบการวินิจฉัยโรคที่คล้ายคลึงกันในอดีตเพื่อศึกษาแนวทางในการรักษาโดยการประยุกต์ใช้ Word Embedding ด้านกฎหมาย สำหรับงานด้านกฎหมาย ก็มีปริมาณข้อมูลทางภาษาจำนวนมากและหลากหลายเช่นเดียวกัน อาทิ ประมวลกฎหมายต่าง ๆ คำร้องต่อศาล คำให้การของคู่ความ และคำพิพากษาของศาล ซึ่งสามารถประยุกต์ใช้เครื่องมือ NLP ได้ในหลายมิติ ไม่ว่าจะเป็นการใช้ PoS Tagging และ NER เพื่อช่วยในการตีความประมวลกฎหมาย อีกทั้งยังสามารถใช้ Topic Model ในการวิเคราะห์หาหัวข้อของคำร้องได้อีกด้วย บทส่งท้าย จะเห็นได้ว่า NLP เข้ามามีบทบาทสำคัญในชีวิตประจำวันของเรา โดยมีการนำไปใช้อย่างแพร่หลาย ทั้งในแบบที่เรารู้ตัว เช่น การใช้เครื่องมือแปลภาษา การคุยกับแชทบอท และในแบบที่เราไม่รู้ตัว เช่น การวิเคราะห์ความรู้สึกของเราจากการแสดงความคิดเห็นบน Social...

29 September 2022

บทความ

Big Data 101

การแก้ปัญหาข้อมูลที่ไม่มีโครงสร้างด้วย NLP และโมเดลภาษาหนึ่งในกลยุทธ์ AI ขององค์กร

ในบทความแขกรับเชิญพิเศษนี้ ประภท สุนการะ (Prabhod Sunkara) ผู้ร่วมก่อตั้งและ COO ของบริษัท nRoad, Inc. ได้พูดถึงเรื่องของการที่องค์กรต่าง ๆ พึ่งพาข้อมูลที่ไม่มีโครงสร้างมากขึ้นเพื่อจุดประสงค์ในการวิเคราะห์ กำกับดูแล และทำการตัดสินใจในระดับองค์กร โดย nRoad เป็นแพลตฟอร์มที่สร้างมาเพื่อการประมวลผลภาษาธรรมชาติ (NLP) สำหรับข้อมูลที่ไม่มีโครงสร้างในส่วนการบริการทางด้านการเงินและเป็นบริษัทแรกที่ประกาศ “สงครามกับการทำงานแบบใช้เอกสาร” ก่อนจะมี nRoad ประภทดำรงตำแหน่งผู้นำหลากหลายตำแหน่งในด้านการพัฒนาผลิตภัณฑ์ การปฏิบัติการ และ Solution Architecture (ตำแหน่งงานที่หาทางออกของปัญหาต่าง ๆ) เขามี Passion ในการสร้าง AI Solutions ที่เน้นผลลัพธ์ ซึ่งเขาก็ได้ประสบความสำเร็จในการปรับปรุงกระบวนการต่าง ๆ ของบริษัทการเงินระดับโลกมากมายเช่น Bank of America, Merrill Lynch, Morgan Stanley และ UBS ข้อมูลที่ไม่มีโครงสร้างหรือ Unstructured Data คือ ข้อมูลเชิงลึกที่มีอยู่แพร่หลายในทั่วทุกองค์กร แต่ข้อมูลเหล่านั้นไม่โปร่งใสหรือไม่สามารถใช้งานได้เสมอไป เรื่องนี้จึงยังคงเป็นความท้าทายสำคัญด้านธุรกิจ ข้อมูลที่ไม่มีการออกแบบฐานข้อมูลไว้ล่วงหน้ามักจะถือว่าเป็นข้อมูลที่ไม่มีโครงสร้าง ซึ่งได้แก่เอกสารและเว็บไซต์ที่เต็มไปด้วยตัวหนังสือตลอดจนไฟล์ภาพ, วิดีโอ, Chatbot, Audio Streaming และโพสต์โซเชียลมีเดีย โดยข้อมูลที่ไม่มีโครงสร้างเหล่านี้มีจำนวนมากถึง 80 ถึง 90 เปอร์เซ็นต์ของข้อมูลที่อยู่ในโลกดิจิทัลทั้งหมด การเติบโตและความท้าทายของข้อมูลที่ไม่มีโครงสร้าง จากการวิจัยของบริษัท ITC พบว่า จำนวนข้อมูลที่ไม่มีโครงสร้างนั้นคาดว่าจะเติบโตจาก 33 เซตตะไบต์ในปี 2018 เป็น 175 เซตตะไบต์ หรือ 175 พันล้านเทระไบต์ภายในปี 2025 แต่ยังโชคดีที่ในองค์การเริ่มมีการตระหนักถึงการเติบโตอย่างรวดเร็วของข้อมูลที่ไม่มีโครงสร้าง ตัวอย่างเช่น ในการวิจัยไม่นานมานี้เผยว่าเกือบ 80 เปอร์เซ็นต์ขององค์กรบริการด้านการเงินกำลังประสบกับการที่ข้อมูลที่ไม่มีโครงสร้างเพิ่มขึ้นอย่างรวดเร็ว ยิ่งไปกว่านั้น ผู้วิจัยส่วนใหญ่ในการวิจัยนี้ระบุว่า ข้อมูลปัจจุบันในองค์กรเป็นข้อมูลที่ไม่มีโครงสร้างมากถึง 50 ถึง 90 เปอร์เซ็นต์ด้วยกัน เมื่อก่อนคอมพิวเตอร์ไม่สามารถเข้าใจข้อมูลประเภทนี้ได้ แต่เนื่องจากในปัจจุบันที่องค์กรต่าง ๆ ต้องพึ่งพาข้อมูลที่ไม่มีโครงสร้างมากขึ้นในการวิเคราะห์ กำกับดูแล และการตัดสินใจทางธุรกิจ ข้อมูลที่ไม่มีโครงสร้างจึงมีความสำคัญมากขึ้น ทำให้ทีม Technology & Data ต่างแข่งกันอัปเกรดและปรับปรุงโครงสร้างพื้นฐานของตน เพื่อให้สอดคล้องกับบริการแบบคลาวด์ที่เติบโตขึ้นและข้อมูลจากทั้งภายในและภายนอกองค์กรที่เพิ่มขึ้นอย่างรวดเร็ว ขณะเดียวกัน ทีมเหล่านี้ก็กำลังสนใจในเรื่องของการใช้งานข้อมูลเชิงลึก (Insights) ที่ฝังอยู่ในแหล่งข้อมูลที่ไม่มีโครงสร้าง โดยกรณีการใช้งานจะมีตั้งแต่การเพิ่มประสิทธิภาพในการปฏิบัติการไปจนถึงการเตรียมพร้อมรับมือกับการบริการลูกค้าปลายทาง ผลก็คือทั้ง CIO และ CDO ต่างก็ประเมินผลหรือนำวิธีการแก้ไขไปใช้งาน โดยมีตั้งแต่วิธีง่าย ๆ แบบ OCR Plus ไปจนถึงโมเดลภาษาขนาดใหญ่ที่ซับซ้อนควบคู่กับเครื่องจักรหรือเทคนิคการเรียนรู้เชิงลึก การร่วมใช้ NLP และโมเดลภาษาในกลยุทธ์ข้อมูลของคุณ ข้อมูลที่ไม่มีโครงสร้างจำนวนมากของบริษัทจะอยู่ในรูปแบบตัวหนังสือ ตัวอย่างเช่นสัญญาทางกฎหมาย เอกสารงานวิจัย คำติชมของลูกค้าจาก Chatbot และทุกอย่างที่อยู่ในรูปแบบของตัวหนังสือ ซึ่งโดยปกติแล้ว องค์กรจะประยุกต์ใช้การประมวลผลภาษาธรรมชาติ (NLP) มาเป็นส่วนหนึ่งของกลยุทธ์ AI และการเปลี่ยนองค์กรมาเป็นองค์กรดิจิทัล (ลองดูตัวอย่างการใช้ประยุกต์ใช้ Data Science กับการวิเคราะห์ข้อมูลเอกสารงานวิจัยที่นี่) ตลอดสิบปีที่ผ่านมา NLP มีงานวิจัยและการพัฒนาอย่างต่อเนื่อง เรื่องที่โดดเด่นที่สุดก็คือ เรื่องวิวัฒนาการของ Transformer Model ซึ่งช่วยให้องค์กรสามารถก้าวผ่านการวิเคราะห์ Keyword แบบง่าย ๆ ไปเป็นการวิเคราะห์ขั้นสูงอย่าง Sentiment Analysis (กระบวนการวิเคราะห์อารมณ์) และ Semantic Analysis (การวิเคราะห์ทางความหมาย) แม้ว่า NLP จะสามารถทำให้เครื่องจักรระบุจำนวนและเข้าใจแก่นแท้ของข้อความได้ แต่ก็ยังมีความท้าทายในเรื่องของการเข้าใจข้อความที่กำกวม วิธีการที่จะรับมือกับข้อความกำกวมเหล่านี้ได้ก็คือการรวมความรู้และบริบทของโดเมนเข้าด้วยกันเป็นโมเดลภาษา โดยการใช้งานโมเดลที่ปรับปรุงอย่างดีแล้ว เช่น LegalBERT, SciBERT, FinBERT ฯลฯ ทั้งนี้ก็จะช่วยให้เริ่มต้นวิเคราะห์ข้อมูลได้ง่ายขึ้นสำหรับกรณีหากต้องการใช้งานแบบเฉพาะเจาะจง ตอนเริ่มแรกโมเดลที่ปรับปรุงอย่างดีแล้วจะมีฐานข้อมูลที่มั่นคง เช่นเดียวกับโมเดลที่ใหญ่ เช่น BERT และ GPT3 แต่อย่างไรก็ตามโมเดลเหล่านี้ยังคงไม่ตอบโจทย์หรือความต้องการของธุรกิจส่วนใหญ่ได้ ด้วยเหตุผลนี้เองธุรกิจที่ดำเนินการในหลายตลาด หลายภูมิภาค และหลายภาษาควรพิจารณาการใช้งานโมเดลภาษาข้ามโดเมน โมเดลหลายภาษา และ/หรือเทคนิคการโอนย้ายการเรียนรู้ (Transfer Learning) เพื่อรับมือกับความท้าทายได้ดียิ่งขึ้น แม้ว่าจะมีการวิจัยและพัฒนา Language Model Architectures ที่ดีขึ้นและครอบคลุมมากขึ้น แต่ทุกวันนี้ก็ยังไม่มี Solution ที่ใช้ได้กับทุกสิ่ง ด้วยเหตุผลนี้เองทำให้องค์กรที่พยายามสร้างโมเดลภาษาของตนก็ไม่สามารถทำได้ นอกจากนี้ยังมีปัจจัยอื่น ๆ ที่ส่งผลกระทบต่อกลยุทธ์ข้อมูลที่ไม่มีโครงสร้างขององค์กรอีก เช่น การขาดข้อมูลอธิบายประกอบ (Annotated Data) ไม่มีการอบรมเกี่ยวกับเรื่อง Data การที่องค์กรขาดความเข้าใจในการประยุกต์ใช้โมเดล และความที่องค์กรอยากจะรีบพัฒนาและอยากใช้งานอุปกรณ์อย่างรวดเร็วแต่ไม่มีทุนการทำ รวมถึงอยากรีบได้ผลตอบแทนคืนจากการลงทุนอีกด้วย วิธีที่องค์กรสามารถรับมือกับปัญหาข้อมูลที่ไม่มีโครงสร้างที่เพิ่มขึ้นได้ การนำข้อมูลมาใช้ขับเคลื่อนองค์กร (Data Strategy) และเทคโนโลยีมีบทบาทสำคัญในแผนกลยุทธ์ AI ทั่วไปขององค์กร องค์กรส่วนใหญ่สามารถวางแผนและจัดการกับข้อมูลที่ไม่มีโครงสร้างได้อย่างมีประสิทธิภาพ แต่ทว่าข้อมูลเชิงลึกนั้นฝังอยู่ในข้อมูลที่ไม่มีโครงสร้าง และองค์กรต่างก็งมหาอยู่ในข้อมูลนี้ CDO ขององค์กรจึงจำเป็นต้องพิจารณาข้อมูลนี้และวางแผนอย่างชาญฉลาดเพื่อใช้ประโยชน์จากข้อมูลนี้ ความท้าทายที่ยากที่สุดที่มักพบได้คือการขาดความสอดคล้องเชิงองค์กรกับกลยุทธ์ AI ขององค์กร แม้ว่าจะไม่เกี่ยวข้องโดยตรงกับโมเดล ML (Machine Learning) และ DL (Deep Learning), ความสอดคล้องกับผู้นำ, ความเข้าใจถ่องแท้เรื่องข้อมูลและผลลัพธ์, และการรวมทีมที่หลากหลาย ทั้งหมดนี้ล้วนจำเป็นอย่างยิ่งสำหรับกลยุทธ์ AI ในองค์กร เพราะวิธีที่ระบุจำนวนได้และเน้นผลลัพธ์ช่วยให้ทีมมุ่งเน้นที่เป้าหมายปลายทางเมื่อเทียบกับโมเดล AI ที่เน้นโฆษณาชวนเชื่อ ตัวอย่างเช่น GPT3 ที่เป็นโมเดลคาดการณ์ภาษาขนาดใหญ่ที่มักจะคาดการณ์ไม่ค่อยถูกต้อง ซึ่งมีหลายกรณีที่มีการเผยแพร่ข้อมูลผิด ๆ เพราะใช้โมเดล GPT3 ซึ่งอาจทำให้องค์กรเสียชื่อเสียงได้ การอบรมและเรียนรู้เชิงลึกในการแก้ไขปัญหานั้นมักมีต้นทุนสูงและแอปพลิเคชันที่ต้องใช้เทคนิคที่เน้น NLP นั้นจำเป็นต้องมีแหล่งช่วยคำนวณที่ใช้โดเมนจำนวนมาก เพราะฉะนั้นเมื่อมีการเริ่มทีม AI ภายในองค์กร องค์กรจะต้องเน้นในเรื่องของการกำหนดปัญหาและผลลัพธ์ที่วัดได้ นอกจากการกำหนดปัญหาแล้ว ทีมผลิตภัณฑ์ต้องโฟกัสที่ความหลากหลาย ความซับซ้อน และความพร้อมใช้งานของข้อมูล ขั้นตอนเหล่านี้จะช่วยวางแผนกลวิธี ระบุโมเดลพื้นฐานที่เหมาะสม และสร้างการกำกับดูแลข้อมูลและการอบรมในเรื่องของฟังก์ชันการใช้งานที่ดี อีกวิธีหนึ่งที่ช่วยประหยัดค่าใช้จ่ายได้ คือ การเลือกพาร์ทเนอร์ที่เป็นบุคคลภายนอกหรือผู้ที่ให้บริการทางด้านนี้มาช่วยเริ่มกลยุทธ์ของคุณ เทคโนโลยีของผู้ให้บริการช่วยให้องค์กรได้ใช้ประโยชน์จากความเชี่ยวชาญในการปฏิบัติงานและการดำเนินการที่ดีที่สุดในโมเดลภาษาที่ใหญ่กว่า ตลอดจนประสบการณ์มากมายที่พวกเขาเคยรับมือกับปัญหาอื่น ๆ ที่เคยเกิดขึ้นมาแล้ว การร่วมใช้กลยุทธ์เพื่อจัดการกับปัญหาข้อมูลที่ไม่มีโครงสร้างขององค์กรและการใช้ประโยชน์จาก เทคนิค NLP กลายเป็นองค์ประกอบสำคัญของการขับเคลื่อนองค์กรด้วยข้อมูลและเทคโนโลยีที่ใช้ในองค์กร แม้ว่าโมเดล RPA, OCR Plus, หรือโมเดล ML สถิติขั้นพื้นฐาน (Basic Statistical-based ML) จะไม่สามารถแก้ปัญหาทั้งหมดได้ แต่การใช้วิธีการเรียนรู้เชิงลึกก็จะเป็นแนวทางในการจัดการกับปัญหาข้อมูลที่ไม่มีโครงสร้างขององค์กรต่อไป บทความโดย InsideData Editorial Teamเนื้อหาจากบทความของ InsideBigdataแปลและเรียบเรียงโดย ไอสวรรค์ ไชยชะนะตรวจทานและปรับปรุงโดย ปพจน์ ธรรมเจริญพร

2 July 2022

บทความ

Big Data 101

คลังข้อความภาษาไทย (Thai text corpus)

มาทำความรู้จักกับ คลังข้อความภาษาไทย ซึ่งเป็นชุดข้อความภาษาไทยจำนวนมหาศาลสำหรับโมเดลการประมวลผลภาษาธรรมชาติ อย่างที่ใช้ในสร้าง chatbot

4 April 2022

บทความ

Movements

GPT-3 คืออะไร? ปัญญาประดิษฐ์ที่จะมาแย่งงานคนทั่วโลกในอนาคต!?

GPT-3 คือโมเดลทางภาษาที่มีความสามารถหลากหลายและ(ดูเหมือน)มีความฉลาดคล้ายมนุษย์ AIนี้เป็นหนึ่งในหลายตัวที่ทำให้เกิดความตื่นกลัวของการนำ AI ทำงานแทนที่มนุษย์ ถึงแม้มันจะมีข้อจำกัดหลายอย่าง การพูดถึงการ AI ในการเข้ามาแทนภาคแรงงานในวันนี้เป็นเรื่องที่จำเป็นต้องทำความเข้าใจ เพราะมันไม่ได้น่ากลัว และซ่อนโอกาสในการเปลี่ยนแปลงโลกในอนาคต

21 December 2021

บทความ

Big Data 101

การค้นหาตัวแทนเชิงความหมายของข้อความ: Word2Vec Word Embedding, Part II

หลังจากที่เราได้พูดถึงหลักการทำงานของโมเดลเบื้องต้นในการทำ word embedding ได้แก่โมเดล CBOW และ Skip-gram ไปแล้ว ในบทความนี้ เราจะมาพูดถึงวิธีการนำผลลัพธ์ที่ได้จากการฝึกฝนของโมเดลในตระกูล Word2Vec สองโมเดลนี้มาทำการสร้างตัวแทนเชิงความหมายของคำและเอกสาร พร้อมทั้งลองเขียนโค้ดง่ายๆ เพื่อลองประยุกต์ใช้งานกันครับ

26 July 2021

บทความ

Big Data 101

การค้นหาตัวแทนเชิงความหมายของข้อความ: Word2Vec Word Embedding, Part I

ในปัจจุบันข้อมูลที่มีลักษณะเป็นข้อความ (text) นั้นมีอยู่เป็นปริมาณมากแต่การประมวลผลข้อมูลเหล่านี้ไม่สามารถทำได้อย่างตรงไปตรงมาและจำเป็นต้องมีการจัดเตรียม (preprocess) ให้อยู่ในลักษณะที่เหมาะสมแก่การนำไปคำนวณได้เสียก่อน ซึ่งการจัดเตรียมข้อมูลเหล่านี้สามารถทำได้จากหลากหลายเทคนิคไม่ว่าจะเป็นการทำการประมวลผลพื้นฐานในการใช้เทคนิคพวก Bag of Words หรือ TF-IDF จนไปถึง การทำ word embedding เพื่อพยายามหาตัวแทนความหมายของข้อมูล ในบทความนี้ เราจะมาพูดถึงเทคนิคเบื้องต้น (ซึ่งยังมีการใช้งานอยู่ในปัจจุบัน) ของการทำ word embedding ได้แก่เทคนิคตระกูล Word2Vec ที่มีความซับซ้อนไม่สูงและสามารถทำได้อย่างรวดเร็ว กันครับ

15 July 2021

บทความ

Big Data 101

สกัดใจความสำคัญของข้อความด้วยเทคนิคการประมวลผลทางภาษาเบื้องต้น: TF-IDF, Part 2

ก่อนที่เราจะสามารถนำเอาเทคนิคการประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP) มาใช้กับภาษาไทยได้นั้น อุปสรรคหลักอย่างหนึ่ง คือ ภาษาไทยไม่ได้มีการเว้นวรรคระหว่างคำเหมือนหลายภาษาอื่น (เช่น ภาษาอังกฤษ) ดังนั้น การ “ตัดคำ” หรือการแยกข้อความภาษาไทยออกเป็นคำเดี่ยวๆ จึงเป็นสิ่งที่จำเป็นแรกที่ต้องทำ

11 November 2020

บทความ

Big Data 101

สกัดใจความสำคัญของข้อความด้วยเทคนิคการประมวลผลทางภาษาเบื้องต้น: TF-IDF, Part 1

ข้อมูลในรูปแบบข้อความมีรูปแบบและความยาวที่หลากหลาย ส่งผลให้ข้อมูลชนิดข้อความถูกนำมาวิเคราะห์ได้ยากกว่ามาก ดังนั้นความสามารถในการสกัดเอาข้อมูลที่สำคัญออกมาจากจากข้อความ (Text Mining) ได้จึงเป็นสิ่งที่สำคัญและเป็นประโยชน์อย่างมาก

1 October 2020

รู้จัก BDI

Organization

Policy and Plan

Personnel

Operations