Natural Language Processing

Natural Language Processing

ข่าวและบทความที่เกี่ยวข้อง

Related news and articles

PostType Filter En

บทความ

หรือว่า AI จะไม่เก่งจริง!! - สาเหตุที่ทำให้ ​AI ยังไม่ถูกนำมาใช้ในชีวิตจริงมากเท่าที่ควร
ตั้งแต่การเรียนรู้เชิงลึก (Deep Learning) ถูกพัฒนาขึ้น ปัญญาประดิษฐ์ก็เข้ามามีบทบาทในชีวิตมนุษย์อย่างมาก ในหลายรูปแบบ ตั้งแต่ในแอปพลิเคชันบนสมาร์ตโฟน กล้องวงจรปิดที่ใช้ตามบ้าน แม้แต่โปรโมชันที่แบรนด์สินค้าเสนอให้กับเราในฐานะลูกค้าในหลายครั้งก็เป็นผลจากการใช้ปัญญาประดิษฐ์ เพื่อประมวลผลทางสถิติว่าโปรโมชันแบบไหนที่แต่ละคนจะตัดสินใจซื้อมากที่สุด ซึ่งในหลายครั้งมันก็ทำให้ลูกค้าจ่ายเงินซื้อสินค้าจากการแนะนำสินค้าได้ตรงใจ หรือแม้กระทั่งการแนะนำวิดีโอในแอปพลิเคชัน TikTok หรือ YouTube เพื่อดึงดูดความสนใจของผู้ใช้ให้รับชมคอนเทนท์ที่ชื่นชอบในระยะเวลาที่ยาวนานที่สุด โดยใช้เทคนิคต่าง ๆ อาทิเช่น Computer Vision เพื่อให้ระบบสามารถแยกแยะเนื้อหาของวีดีโอ และ Natural Language Processing ที่นำมาใช้แยกแยะเนื้อหาที่เป็นภาษา ( ai คือ อะไร ) ความสามารถของปัญญาประดิษฐ์ที่มนุษย์สร้างขึ้นถูกพัฒนาจนเริ่มที่จะเก่งกว่ามนุษย์ในหลายทักษะ หนึ่งในงานทดลองที่เป็นรู้จักคือการสอนให้คอมพิวเตอร์เล่นเกมเพื่อเอาชนะมนุษย์ หรือแม้กระทั่งในเกมที่ซับซ้อนอย่างหมากล้อม ก็สามารถเอาชนะมนุษย์ไปได้จนเป็นข่าวดังไปทั่วโลก จนในบางครั้งก็ทำให้เกิดความหวาดกลัวในปัญญาประดิษฐ์ว่ามันจะทำอะไรที่เป็นอันตรายต่อมนุษย์เหมือนกับในภาพยนตร์ชื่อดังหลายเรื่องหรือไม่ สื่อสังคมออนไลน์ถึงกับตื่นตระหนกกับข่าวที่ปัญญาประดิษฐ์ของ Facebook สร้างภาษาของตัวเองขึ้นมา และให้ความเห็นกันไปต่าง ๆ นานา ในฐานะของผู้ที่มีประสบการณ์วิจัยเกี่ยวกับปัญญาประดิษฐ์มา ผู้เขียนสามารถบอกได้อย่างมั่นใจว่า “ปัญญาประดิษฐ์จะยังไม่ครองโลกในเร็ว ๆ นี้แน่นอน” เพราะความเก่งกาจจากการเรียนรู้ข้อมูลของปัญญาประดิษฐ์นั้นยังมีข้อจำกัดอย่างมาก ตัวอย่างหนึ่งที่เห็นได้ชัดเจนคือการที่เทคโนโลยี Self-Driving Car อย่างเต็มรูปแบบ (ไม่นับระบบช่วยเหลือในการขับอย่าง Cruise Control) ถูกเคยถูกพูดถึงกันมาอย่างยาวนานในวงการวิจัยนั้น ในขณะที่เขียนบทความนี้ (ตุลาคม 2565) เทคโนโลยีนี้ถูกใส่เข้ามาในรถยนต์ของผู้ให้บริการเพียงไม่กี่รายที่มีความสามารถในการวิจัยเทคโนโลยีที่ล้ำสมัยอย่างเช่น Tesla ซึ่งก็ยังมีข้อจำกัดอยู่ และก็ยังมีรายงานการเกิดอุบัติเหตุอยู่บ้างเช่นกัน บทความนี้เราจะมาดูกันว่าข้อจำกัดอะไรบ้างที่ปัญญาประดิษฐ์ต้องก้าวข้ามไปให้ได้ และตัวอย่างของความอ่อนด้อยของปัญญาประดิษฐ์ในสิ่งที่เรื่องง่ายสำหรับมนุษย์ 1. Domain Shift – โมเดลเรียนรู้และเก่งในเรื่องที่มีข้อมูลเท่านั้น และประสิทธิภาพลดลงอย่างมากเมื่อสภาพแวดล้อมเปลี่ยนไป เป็นเรื่องจริงที่ปัญญาประดิษฐ์นั้นเรียนรู้จนเก่งในหลายเรื่อง แต่ความเก่งนั้นก็จำกัดอยู่กับสิ่งแวดล้อมที่มันเคยเรียนรู้มาเท่านั้น เมื่อสภาพแวดล้อมเปลี่ยนไปจากเดิม ประสิทธิภาพในการทำงานและการตัดสินใจก็จะเปลี่ยนไปอย่างมาก ปัญหานี้เป็นที่รู้จักกันในหลายชื่อเรียก เช่น Domain Shift, Distribution Shift, และ Data Drift เป็นต้น ซึ่งต่างก็มีความหมายที่คล้ายกัน คือการที่โดเมน (ขอบเขต) ของข้อมูลที่ปัญญาประดิษฐ์รับเข้าระบบ (Input) เปลี่ยนแปลงไปจากเดิม ตัวอย่างเช่นถ้าเราให้โมเดลเรียนรู้ข้อมูลที่มีการแจกแจงแบบหนึ่ง แต่พอนำโมเดลไปใช้จริงกลับมีการแจกแจงอีกแบบหนึ่ง ดังที่เห็นจากในตัวอย่างภาพการแจกแจงด้านบน ก็จะมีความเสี่ยงสูงที่การนำไปใช้จริงจะลดประสิทธิภาพของโมเดลนี้ หรือในกรณีของข้อมูลภาพที่เป็นถนนและสภาพจราจร การที่ข้อมูลที่ใช้สอนปัญญาประดิษฐ์ส่วนมากจะถูกเก็บมาจากช่วงเวลากลางวัน ซึ่งสภาพแสงต่างจากกลางคืนอย่างชัดเจน เมื่อนำมาใช้ประมวลผลกับภาพที่ได้ในเวลากลางคืนก็มีแนวโน้มที่ความถูกต้องในการทำงานจะลดลง การสอนระบบด้วยภาพในเมือง แต่นำไปใช้กับภาพถนนในชนบท หรือแม้แต่ในเงามืดที่แสงน้อยเองก็เช่นกันตามภาพที่ด้านล่าง 2. Catastrophic Forgetting – เรียนเรื่องใหม่ ลืมเรื่องเก่า การแก้ปัญหาในข้อที่ 1 แบบง่าย ๆ ก็คือการนำเอาข้อมูลในสิ่งแวดล้อมปัจจุบันที่ปัญญาประดิษฐ์พบเจออยู่ในขณะนั้นมาสอนระบบในทันที เพื่อให้มันสามารถปรับตัวกับสภาพแวดล้อมใหม่ ซึ่งก็สร้างปัญหาใหม่ขึ้นมาถึง 2 เรื่อง เรื่องแรกคือบริษัทที่เป็นผู้ให้บริการก็ต้องจ้างคนมาเพื่อสร้าง Label (หรือก็คือเฉลยของคำถาม) ในการสอนปัญญาประดิษฐ์ ซึ่งในงานประเภท Semantic Segmentation จะพบว่าการสร้าง Label นั้นค่อนข้างยาก ใช้เวลานาน และนำมาซึ่งต้นทุนที่สูงขึ้น เรื่องที่สองที่จะเจอคือปัญหาที่เรียกว่า Catastrophic Forgetting หรือคือการเรียนเรื่องใหม่แล้วลืมเรื่องเก่า ปัญหานี้เกิดขึ้นเมื่อเรานำเอาข้อมูลใหม่เข้ามาสอนให้กับปัญญาประดิษฐ์เพื่อให้สามารถประมวลผลในโดเมนปัจจุบันได้ถูกต้อง แต่เมื่อนำโดเมนของข้อมูลเปลี่ยนกลับไปเป็นโดเมนเดิมในตอนต้น ความถูกต้องในการประมวลผลก็จะลดลง เพราะปัญญาประดิษฐ์ได้ทำการเรียนรู้กับข้อมูลในโดเมนใหม่และได้ลืมความรู้ในโดเมนเก่าไปแล้ว 3. Out-of-Distribution – ปัญญาประดิษฐ์มักไม่รู้ตัวว่าตนเองไม่มีความรู้ การใช้งานปัญญาประดิษฐ์ในโลกความเป็นจริงที่เป็นสิ่งแวดล้อมแบบเปิด (Open World) มักจะมีสิ่งที่ระบบไม่เคยเรียนรู้มาก่อนอยู่เสมอ โดยเฉพาะเมื่อพูดถึงโมเดลเพื่อการจำแนกประเภท (Classification Model) ที่ต้องระบุหมวดหมู่ (Class) ของการจำแนกที่ชัดเจนตั้งแต่ตอนที่นำข้อมูลมาเพื่อสอน ในขณะที่เมื่อนำเอาไปใช้จริงแล้วมักจะเจอกับข้อมูลที่อยู่ในหมวดหมู่ใหม่ที่ไม่เคยเรียนรู้มาก่อน สิ่งนี้เป็นเพราะในงานข้อมูลบางประเภท เช่น ภาพ หรือภาษา มีหมวดหมู่ที่ไม่แน่นอน เราไม่สามารถนำเอาทุกความเป็นไปได้ของข้อมูลมาสอนให้กับปัญญาประดิษฐ์ได้ หรือถ้าทำได้ เมื่อเวลาผ่านไปย่อมมีข้อมูลใหม่เกิดขึ้นอยู่เสมอ ดังนั้นการที่ระบบสามารถระบุได้เมื่อเจอข้อมูลที่แตกต่างออกไปจากเดิมนั้นเป็นสิ่งสำคัญมาก ถ้าเป็นปัญญาประดิษฐ์ที่ใช้แยกแยะสายพันธุ์สุนัขจากภาพ เมื่อผู้ใช้นำภาพของแมวหรือนกมาให้จำแนกสายพันธุ์ ก็ควรจะต้องบอกได้ว่าสิ่งนั้นไม่ใช่สุนัข หรือถ้ามีสายพันธุ์ใหม่ที่ไม่เคยเจอ ก็ควรจะบอกผู้ใช้ได้ว่าไม่รู้จักสายพันธุ์นั้น ในกรณีของระบบที่เป็น Self-Driving Car อาจจะมีการใช้ปัญญาประดิษฐ์ที่เรียนรู้วัตถุต่าง ๆ จากภาพ เมื่อเจอวัตถุหรือสิ่งมีชีวิตบนท้องถนนที่ไม่เคยเจอมาก่อน ก็ควรจะออกแบบให้สามารถส่งต่อความไม่มั่นใจดังกล่าวให้กับมนุษย์ ให้คนขับเป็นผู้ตัดสินใจเองว่าจะขับต่อไป หรือเลี่ยงเส้นทาง 4. Calibration – ค่าความมั่นใจของคำตอบควรจะบอกความน่าจะเป็นที่คำตอบนั้นจะถูกต้อง แน่นอนว่าไม่มีใครถูกเสมอ การทำนายหรือตอบคำถามของปัญญาประดิษฐ์นั้นก็เช่นเดียวกัน แต่ปัญหาก็คือ บ่อยครั้งที่พบว่าคำตอบของปัญญาประดิษฐ์ในงานจำแนกหมวดหมู่ (Classification) มักมาพร้อมกับค่าความมั่นใจที่มากเกินควร (ค่าความมั่นใจ หรือ Predicted Probability เป็นค่าที่คำนวณออกมากับคำตอบ) ถ้าค่าความมั่นใจถูกต้อง เมื่อจำเอาตัวอย่างที่โมเดลมีค่าความมั่นใจที่ 0.8 หรือ 80% ทั้งหมดมา เราควรจะพบว่าคำตอบควรจะถูกต้องอยู่ที่ 80% จากข้อมูลทั้งหมดด้วยเช่นกัน ตัวอย่างเช่นปัญญาประดิษฐ์ที่ใช้จำแนกสายพันธุ์สุนัขจากภาพ ถ้าเราพบว่ามีภาพสุนัขทั้งหมด 1,000 ภาพที่ถูกจำแนก พร้อมกับมีค่าความมั่นใจที่ 0.8 ทั้งหมด เราก็ควรจะคาดหวังได้ว่าการจำแนกจะถูกต้องประมาณ 800 ภาพ หรือก็คือ 80% ค่าความมั่นใจดังกล่าวย่อมส่งผลต่อการตัดสินใจเชื่อหรือไม่เชื่อคำตอบนั้น และการกระทำต่าง ๆ ที่ตามมาจากข้อสรุปนั้นทั้งหมด ถ้าโมเดลทำนายหุ้นบอกว่าหุ้น A จะขึ้นด้วยความมั่นใจ 70% เราก็อาจจะลงทุนด้วยจำนวนเงินที่น้อย แต่ลงเงินกับหุ้น B ที่โมเดลบอกว่าขึ้น 95% เป็นต้น อย่างไรก็ดีจากการศึกษาพบว่าปัญญาประดิษฐ์สมัยใหม่ที่ใช้ Deep Neural Network ที่มีชั้นและความซับซ้อนมาก มักพบว่าให้ค่าความมั่นใจที่ไม่ตรงกับอัตราความถูกต้องของคำตอบจริง 5. Explainability – ตัดสินใจแล้วควรจะต้องอธิบายได้ว่าเพราะอะไร เมื่อเราใช้ปัญญาประดิษฐ์ตัดสินใจบางอย่างแล้วเกิดผลที่ตามมา ซึ่งอาจเป็นสิ่งที่ไม่พึงประสงค์สำหรับบางคน เช่น เมื่อสแกนใบหน้าไม่ผ่านทำให้เข้าประตูไม่ได้ หรือปัญญาประดิษฐ์ประเมินราคารถยนต์จากภาพถ่ายตีราคาออกมาต่ำกว่าที่ผู้เสนอขายคาดหวัง เป็นต้น สิ่งเหล่านี้ควรสามารถอธิบายเหตุผลของการทำนายนั้นได้ด้วย การสแกนใบหน้าที่ไม่ผ่านอาจเป็นเพราะผู้ใช้ลืมถอดแว่นกันแดด ระบบก็อาจจะบอกเหตุผลเพื่อให้ปรับปรุงและลองอีกครั้ง ยิ่งความซับซ้อนมีมากขึ้นเท่าไหร่ ความยากในการอธิบายเหตุผลก็มีมากขึ้นเรื่อย ๆ ในความเป็นจริงแล้วระบบสามารถอธิบายออกมาได้เพียงระดับเบื้องต้น เช่นในกรณีของข้อมูลภาพ อาจจะมีการทำ Heatmap บอกว่าส่วนไหนของภาพที่ส่งผลต่อการตัดสินใจ แต่ก็ไม่สามารถบอกเป็นเหตุผลมาอย่างชัดเจนได้ว่าเพราะอะไร ในกรณีที่ระบบมีการตัดสินใจที่ส่งผลต่อความปลอดภัยของผู้ใช้อย่าง Self-Driving Car การตัดสินใจบางอย่างที่นำมาซึ่งความผิดพลาดและอาจทำให้เกิดการสูญเสียทรัพย์สิน หรืออาจถึงขั้นเสียชีวิต การอธิบายได้ว่าระบบตัดสินใจอะไร เพราะอะไร ช่วยเพิ่มความมั่นใจของผู้ใช้ระบบ เพราะจะทำให้มั่นใจได้ว่าการตัดสินใจต่าง ๆ นั้นอยู่บนหลักการและเหตุผลที่ถูกต้อง และมีส่วนสำคัญอย่างมากเมื่อต้องสืบหาสาเหตุของอุบัติเหตุที่อาจเกิดขึ้นอย่างไม่คาดคิด ปัญหาทั้งหมดที่เล่ามาทำให้การใช้งานปัญญาประดิษฐ์ในชีวิตจริงยังไม่แพร่หลายเท่ากับการที่นักวิเคราะห์เทรนด์ของอนาคตบอกไว้ นักวิจัยยังคงต้องใช้เวลาอีกสักพักเพื่อที่จะเข้าใจการทำงานของมันให้มากขึ้น และนำเสนอวิธีการที่จะทำให้ได้ผลลัพธ์ตามที่ต้องการ ซึ่งวิธีการนั้นอาจนำมาซึ่งการใช้ทรัพยากรมนุษย์ในการพัฒนาปัญญาประดิษฐ์ที่มากขึ้น หรือทรัพยากรคอมพิวเตอร์เพื่อการประมวลผล ซึ่งอาจต้องใช้เงินจำนวนมหาศาลในการเอาชนะปัญหาเหล่านี้ ผู้เขียนในฐานะอดีตนักวิจัยก็ยังติดตาม เอาใจช่วย และคาดหวังให้เทคโนโลยีปัญญาประดิษฐ์นั้นก้าวหน้าขึ้นในทุกวัน ด้วยความเชื่อที่ว่ามันจะมาช่วยทำให้ชีวิตมนุษย์ดีขึ้นได้ในอนาคต เนื้อหาโดย อิงครัต เตชะภาณุรักษ์ตรวจทานและปรับปรุงโดย พีรดล สามะศิริ
4 November 2022

บทความ

Natural Language Processing (NLP): เครื่องมือที่ช่วยให้คอมพิวเตอร์เข้าใจภาษามนุษย์
            ถึงแม้ว่าการวิเคราะห์ข้อมูลต่าง ๆ และการสร้างแบบจำลองจากข้อมูลเหล่านั้นด้วยศาสตร์ทางด้านการเรียนรู้ของเครื่อง (Machine Learning) จะเกี่ยวข้องกับข้อมูลที่มีโครงสร้าง (Structured Data) เช่น ข้อมูลเชิงตาราง (Tabular Data) เป็นส่วนใหญ่ แต่ทว่าในโลกความเป็นจริง ข้อมูลบนโลกดิจิทัลในปัจจุบันมากกว่า 80% เป็นข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data) เช่น ไฟล์ภาพ เสียง หรือ วีดิโอ รวมถึงข้อมูลในลักษณะของข้อความ อาทิ เนื้อหาในบทความต่าง ๆ การโพสต์ข้อความบนโซเชียลมีเดีย การตอบกระทู้บนเว็บบอร์ด บทสัมภาษณ์ของนักกีฬาและนักการเมือง และการแสดงความคิดเห็นต่อสินค้าบนแพลตฟอร์มพาณิชย์อิเล็กทรอนิกส์ (E-commerce Platform) ทั้งนี้ การวิเคราะห์ข้อมูลในลักษณะดังกล่าวจำเป็นต้องอาศัยศาสตร์เฉพาะทางที่มีชื่อเรียกเพราะ ๆ ว่า การประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP) เพื่อช่วยให้คอมพิวเตอร์เข้าใจภาษาที่ซับซ้อนของมนุษย์ โดยเราจะมาทำความรู้จักกับมันให้มากขึ้นในบทความนี้ ซึ่งจะขอเรียกชื่อพระเอกของเราสั้น ๆ ด้วยชื่อย่อว่า “NLP” ดังนั้น หากไม่มีกระบวนการที่เหมาะสมในการนำข้อมูลเหล่านั้นมาใช้ประโยชน์ มันก็จะเป็นเพียงแค่ชุดของตัวอักษรซึ่งไม่สามารถสร้างมูลค่าหรือองค์ความรู้ใด ๆ ให้กับองค์กรได้ วิวัฒนาการและความสำคัญของ NLP การประมวลผลภาษาธรรมชาติ (NLP) เป็นศาสตร์ที่สำคัญทางด้าน Machine Learning โดยมันเป็นสาขาวิชาหนึ่งที่ประกอบด้วยองค์ความรู้จากหลากหลายแขนง อาทิ ภาษาศาสตร์ (Linguistics) วิทยาการคอมพิวเตอร์ (Computer Science) ปัญญาประดิษฐ์ (Artificial Intelligence: AI) รวมถึงสถิติ (Statistics) โดยมีจุดมุ่งหมายเพื่อให้คอมพิวเตอร์สามารถทำความ “เข้าใจ” ข้อมูลที่มีลักษณะเป็นข้อความหรือคำพูดเฉกเช่นเดียวกับที่มนุษย์ที่ทำได้ ซึ่งไม่ใช่เพียงแค่เข้าใจความหมายโดยตรงของข้อความนั้น ๆ แต่ยังรวมถึงการรับรู้ถึงความหมายโดยนัย ความรู้สึกของผู้เขียน ความแตกต่างทางบริบทของภาษา รวมถึงสามารถทำการวิเคราะห์ในรูปแบบต่าง ๆ ได้อีกด้วย โดย NLP มีจุดกำเนิดมาตั้งแต่ช่วงกลางศตวรรษที่ 19 และได้มีการพัฒนาต่อยอดมาเรื่อย ๆ จนถึงปัจจุบัน โดยในที่นี้เราขอแบ่งช่วงวิวัฒนาการของ NLP ออกเป็น 3 ยุค ดังต่อไปนี้ ในยุคแรก NLP ถูกใช้งานด้วยวิธีการตามกฎ (Rule-based Method) โดยนักภาษาศาสตร์ผู้มีความเชี่ยวชาญโครงสร้างของภาษาที่สนใจ จะเป็นผู้เขียนกฎต่าง ๆ ขึ้นมา เพื่อให้คอมพิวเตอร์สามารถนำไปคำนวนเพื่อหาคำตอบของโจทย์ที่ต้องการได้ ในยุคต่อมา พบว่าการเขียนกฎด้วยมือไม่สามารถตอบสนองต่อโจทย์ที่มีความซับซ้อนมาก ๆ ได้ อย่างไรก็ตาม สิ่งที่ได้มาทดแทนในยุคนี้คือ ประสิทธิภาพของเครื่องคอมพิวเตอร์ รวมถึงความรู้ทางด้านสถิติ และ Machine Learning ซึ่งได้ถูกนำมาพัฒนาเพื่อใช้ในการทำงานด้าน NLP โดยมีการนำเข้าข้อมูลเพื่อให้คอมพิวเตอร์สามารถเรียนรู้ด้วยตนเองแทนการใช้ผู้เชี่ยวชาญทางด้านภาษา ในยุคปัจจุบัน ด้วยพลังการคำนวนของคอมพิวเตอร์ที่มีการพัฒนาสูงขึ้นอย่างต่อเนื่อง ทำให้เทคโนโลยีที่มีความซับซ้อนสูงอย่าง การเรียนรู้เชิงลึก (Deep Learning) ถูกนำมาใช้งานแทนที่ Machine Learning ซึ่งใช้ความรู้ทางด้านสถิติแบบดั้งเดิม อย่างแพร่หลายมากขึ้น รวมถึงในงานด้าน NLP ด้วยเช่นกัน อาทิ การสร้างแบบจำลองทางภาษา (Language Model) และการวิเคราะห์โครงสร้างของข้อความ (Parsing) โดยสิ่งสำคัญที่ทำให้ NLP ได้รับความสนใจอย่างแพร่หลายและมีการพัฒนาอย่างต่อเนื่องมาตลอดหลายสิบปี คือความต้องการในการประมวลผลข้อมูลที่มีลักษณะเป็นข้อความในหลายภาคส่วน อาทิ ด้านการศึกษา ด้านธุรกิจ และด้านเทคโนโลยีการสื่อสาร ซึ่งล้วนแล้วแต่มีการป้อนข้อมูลดังกล่าวเข้าสู่โลกดิจิทัลเป็นปริมาณมหาศาลในทุก ๆ ปี ดังนั้น หากไม่มีกระบวนการที่เหมาะสมในการนำข้อมูลเหล่านั้นมาใช้ประโยชน์ มันก็จะเป็นเพียงแค่ชุดของตัวอักษรซึ่งไม่สามารถสร้างมูลค่าหรือองค์ความรู้ใด ๆ ให้กับองค์กรได้ ยิ่งไปกว่านั้น ในมุมมองขององค์กรซึ่งล้วนแล้วแต่เป็นผู้ผลิตและครอบครองข้อมูลทางภาษาขนาดใหญ่ในเอกสารทั้งหลาย ถ้าองค์กรใดสามารถปรับตัวเพื่อรับมือกับข้อมูลเหล่านั้นและสามารถนำ NLP มาประยุกต์ใช้ได้ก่อน องค์กรนั้นย่อมได้เปรียบกว่าอย่างแน่นอน ตัวอย่างเครื่องมือสำหรับงาน NLP เนื่องจากข้อมูลในรูปแบบของข้อความสามารถทำการวิเคราะห์ได้ในหลากหลายมุมมอง ดังนั้น เครื่องมือสำหรับงาน NLP จึงมีความหลากหลายเช่นเดียวกัน โดยในการทำโปรเจคหนึ่ง ๆ อาจมีความจำเป็นที่ต้องใช้เครื่องมือมากกว่าหนึ่งรายการ ซึ่งในที่นี้ จะมีการแนะนำเครื่องมือเบื้องต้นที่น่าสนใจสำหรับงาน NLP ตัวอย่างการประยุกต์ใช้ NLP ในด้านต่าง ๆ เนื่องด้วยปริมาณอันมหาศาลของข้อมูลลักษณะข้อความในปัจจุบัน ซึ่งมีบริบทและแหล่งกำเนิดข้อมูลที่หลากหลาย ส่งผลให้ NLP ได้รับการนำไปใช้เพื่อให้ก่อประโยชน์ในวงการต่าง ๆ อย่างมากมาย โดยส่วนนี้ จะทำการแนะนำตัวอย่างการประยุกต์ใช้เครื่องมือสำหรับงาน NLP ในด้านต่าง ๆ ที่น่าสนใจ ด้านการทำงานวิจัย วงการวิจัยเป็นหนึ่งในแหล่งของข้อมูลทางภาษาขนาดใหญ่ ซึ่งเปิดโอกาสให้ NLP สามารถเข้ามามีบทบาทได้อย่างหลากหลาย ตัวอย่างเช่น การประยุกต์ใช้ Topic Model ในการจัดหมวดหมู่เอกสารเพื่อวิเคราะห์หาหัวข้อของบทความงานวิจัย นอกจากนั้น ยังสามารถต่อยอดการทำ Word Embedding เพื่อแปลงประโยคหรือเอกสารให้เป็นเชิงปริมาณ และใช้ในการเปรียบเทียบความใกล้เคียงกันของข้อเสนอโครงการวิจัยได้อีกด้วย โดยแนวคิดเดียวกันนี้สามารถประยุกต์ใช้เพื่อตรวจสอบความคล้ายคลึงกันของเอกสารชนิดอื่น ๆ ได้เช่นเดียวกัน อาทิ คำขอสิทธิบัตร บทประพันธ์ และบทความในหนังสือพิมพ์ ด้านพาณิชย์อิเล็กทรอนิกส์ (E-commerce) ในปัจจุบัน การใช้จ่ายเพื่อสั่งซื้อสินค้าผ่านช่องทางออนไลน์อย่างแพลตฟอร์ม E-commerce เข้ามามีบทบาทสำคัญเป็นอย่างมากในระบบเศรษฐกิจ ซึ่งนอกจากจะก่อให้เกิดปริมาณการทำธุรกรรมที่มหาศาลแล้ว ยังมีการนำเข้าข้อมูลประเภทข้อความขนาดใหญ่เช่นเดียวกัน ไม่ว่าจะเป็น คำอธิบายสินค้าและบริการ การแสดงความคิดเห็นของผู้บริโภค รวมถึงการสนทนากันระหว่างผู้ซื้อและผู้ขายผ่านทางช่องแชท ดังนั้น จึงเปิดโอกาสให้ผู้ประกอบการสามารถนำเครื่องมือทาง NLP มาประยุกต์ใช้เพื่อก่อให้เกิดประโยชน์กับธุรกิจของตนได้ ตัวอย่างเช่น การใช้แบบจำลองทางภาษาเพื่อพัฒนาแชทบอทมาช่วยในการตอบแชทลูกค้า หรือการใช้ Sentiment Analysis เพื่อวิเคราะห์ความคิดเห็นของลูกค้าต่อสินค้าและบริการ ด้านการแพทย์ ข้อมูลทางการแพทย์มีจำนวนไม่น้อยที่มีลักษณะเป็นข้อความ ซึ่งสามารถนำไปใช้วิเคราะห์ต่อได้ ตัวอย่างเช่น บทสนทนาระหว่างแพทย์และผู้ป่วย การวินิจฉัยโรคโดยแพทย์ และประวัติการรักษาของผู้ป่วย ส่งผลให้มีการนำ NLP มาประยุกต์ใช้ในงานด้านนี้เช่นเดียวกัน ได้แก่ การวิเคราะห์ความรู้สึกของผู้ป่วยโดยใช้ Sentiment Analysis การระบุหมวดหมู่ของคำในประวัติผู้ป่วยออกเป็น ชื่อโรค ชื่อยา อาการ และอื่น ๆ โดยใช้ NER รวมถึงการตรวจสอบการวินิจฉัยโรคที่คล้ายคลึงกันในอดีตเพื่อศึกษาแนวทางในการรักษาโดยการประยุกต์ใช้ Word Embedding ด้านกฎหมาย สำหรับงานด้านกฎหมาย ก็มีปริมาณข้อมูลทางภาษาจำนวนมากและหลากหลายเช่นเดียวกัน อาทิ ประมวลกฎหมายต่าง ๆ คำร้องต่อศาล คำให้การของคู่ความ และคำพิพากษาของศาล ซึ่งสามารถประยุกต์ใช้เครื่องมือ NLP ได้ในหลายมิติ ไม่ว่าจะเป็นการใช้ PoS Tagging และ NER เพื่อช่วยในการตีความประมวลกฎหมาย อีกทั้งยังสามารถใช้ Topic Model ในการวิเคราะห์หาหัวข้อของคำร้องได้อีกด้วย บทส่งท้าย จะเห็นได้ว่า NLP เข้ามามีบทบาทสำคัญในชีวิตประจำวันของเรา โดยมีการนำไปใช้อย่างแพร่หลาย ทั้งในแบบที่เรารู้ตัว เช่น การใช้เครื่องมือแปลภาษา การคุยกับแชทบอท และในแบบที่เราไม่รู้ตัว เช่น การวิเคราะห์ความรู้สึกของเราจากการแสดงความคิดเห็นบน Social...
29 September 2022

บทความ

การแก้ปัญหาข้อมูลที่ไม่มีโครงสร้างด้วย NLP และโมเดลภาษาหนึ่งในกลยุทธ์ AI ขององค์กร
ในบทความแขกรับเชิญพิเศษนี้ ประภท สุนการะ (Prabhod Sunkara) ผู้ร่วมก่อตั้งและ COO ของบริษัท nRoad, Inc. ได้พูดถึงเรื่องของการที่องค์กรต่าง ๆ พึ่งพาข้อมูลที่ไม่มีโครงสร้างมากขึ้นเพื่อจุดประสงค์ในการวิเคราะห์ กำกับดูแล และทำการตัดสินใจในระดับองค์กร โดย nRoad เป็นแพลตฟอร์มที่สร้างมาเพื่อการประมวลผลภาษาธรรมชาติ (NLP) สำหรับข้อมูลที่ไม่มีโครงสร้างในส่วนการบริการทางด้านการเงินและเป็นบริษัทแรกที่ประกาศ “สงครามกับการทำงานแบบใช้เอกสาร”  ก่อนจะมี nRoad ประภทดำรงตำแหน่งผู้นำหลากหลายตำแหน่งในด้านการพัฒนาผลิตภัณฑ์ การปฏิบัติการ และ Solution Architecture (ตำแหน่งงานที่หาทางออกของปัญหาต่าง ๆ)  เขามี Passion ในการสร้าง AI Solutions ที่เน้นผลลัพธ์ ซึ่งเขาก็ได้ประสบความสำเร็จในการปรับปรุงกระบวนการต่าง ๆ ของบริษัทการเงินระดับโลกมากมายเช่น Bank of America, Merrill Lynch, Morgan Stanley และ UBS ข้อมูลที่ไม่มีโครงสร้างหรือ Unstructured Data คือ ข้อมูลเชิงลึกที่มีอยู่แพร่หลายในทั่วทุกองค์กร แต่ข้อมูลเหล่านั้นไม่โปร่งใสหรือไม่สามารถใช้งานได้เสมอไป เรื่องนี้จึงยังคงเป็นความท้าทายสำคัญด้านธุรกิจ  ข้อมูลที่ไม่มีการออกแบบฐานข้อมูลไว้ล่วงหน้ามักจะถือว่าเป็นข้อมูลที่ไม่มีโครงสร้าง ซึ่งได้แก่เอกสารและเว็บไซต์ที่เต็มไปด้วยตัวหนังสือตลอดจนไฟล์ภาพ, วิดีโอ, Chatbot, Audio Streaming และโพสต์โซเชียลมีเดีย โดยข้อมูลที่ไม่มีโครงสร้างเหล่านี้มีจำนวนมากถึง 80 ถึง 90 เปอร์เซ็นต์ของข้อมูลที่อยู่ในโลกดิจิทัลทั้งหมด การเติบโตและความท้าทายของข้อมูลที่ไม่มีโครงสร้าง จากการวิจัยของบริษัท ITC พบว่า จำนวนข้อมูลที่ไม่มีโครงสร้างนั้นคาดว่าจะเติบโตจาก 33 เซตตะไบต์ในปี 2018 เป็น 175 เซตตะไบต์ หรือ 175 พันล้านเทระไบต์ภายในปี 2025 แต่ยังโชคดีที่ในองค์การเริ่มมีการตระหนักถึงการเติบโตอย่างรวดเร็วของข้อมูลที่ไม่มีโครงสร้าง ตัวอย่างเช่น ในการวิจัยไม่นานมานี้เผยว่าเกือบ 80 เปอร์เซ็นต์ขององค์กรบริการด้านการเงินกำลังประสบกับการที่ข้อมูลที่ไม่มีโครงสร้างเพิ่มขึ้นอย่างรวดเร็ว ยิ่งไปกว่านั้น ผู้วิจัยส่วนใหญ่ในการวิจัยนี้ระบุว่า ข้อมูลปัจจุบันในองค์กรเป็นข้อมูลที่ไม่มีโครงสร้างมากถึง 50 ถึง 90 เปอร์เซ็นต์ด้วยกัน เมื่อก่อนคอมพิวเตอร์ไม่สามารถเข้าใจข้อมูลประเภทนี้ได้ แต่เนื่องจากในปัจจุบันที่องค์กรต่าง ๆ ต้องพึ่งพาข้อมูลที่ไม่มีโครงสร้างมากขึ้นในการวิเคราะห์ กำกับดูแล และการตัดสินใจทางธุรกิจ ข้อมูลที่ไม่มีโครงสร้างจึงมีความสำคัญมากขึ้น ทำให้ทีม Technology & Data ต่างแข่งกันอัปเกรดและปรับปรุงโครงสร้างพื้นฐานของตน เพื่อให้สอดคล้องกับบริการแบบคลาวด์ที่เติบโตขึ้นและข้อมูลจากทั้งภายในและภายนอกองค์กรที่เพิ่มขึ้นอย่างรวดเร็ว ขณะเดียวกัน ทีมเหล่านี้ก็กำลังสนใจในเรื่องของการใช้งานข้อมูลเชิงลึก (Insights) ที่ฝังอยู่ในแหล่งข้อมูลที่ไม่มีโครงสร้าง โดยกรณีการใช้งานจะมีตั้งแต่การเพิ่มประสิทธิภาพในการปฏิบัติการไปจนถึงการเตรียมพร้อมรับมือกับการบริการลูกค้าปลายทาง ผลก็คือทั้ง CIO และ CDO ต่างก็ประเมินผลหรือนำวิธีการแก้ไขไปใช้งาน โดยมีตั้งแต่วิธีง่าย ๆ แบบ OCR Plus ไปจนถึงโมเดลภาษาขนาดใหญ่ที่ซับซ้อนควบคู่กับเครื่องจักรหรือเทคนิคการเรียนรู้เชิงลึก การร่วมใช้ NLP และโมเดลภาษาในกลยุทธ์ข้อมูลของคุณ ข้อมูลที่ไม่มีโครงสร้างจำนวนมากของบริษัทจะอยู่ในรูปแบบตัวหนังสือ ตัวอย่างเช่นสัญญาทางกฎหมาย เอกสารงานวิจัย คำติชมของลูกค้าจาก Chatbot และทุกอย่างที่อยู่ในรูปแบบของตัวหนังสือ ซึ่งโดยปกติแล้ว องค์กรจะประยุกต์ใช้การประมวลผลภาษาธรรมชาติ (NLP) มาเป็นส่วนหนึ่งของกลยุทธ์ AI และการเปลี่ยนองค์กรมาเป็นองค์กรดิจิทัล (ลองดูตัวอย่างการใช้ประยุกต์ใช้ Data Science กับการวิเคราะห์ข้อมูลเอกสารงานวิจัยที่นี่) ตลอดสิบปีที่ผ่านมา NLP มีงานวิจัยและการพัฒนาอย่างต่อเนื่อง เรื่องที่โดดเด่นที่สุดก็คือ เรื่องวิวัฒนาการของ Transformer Model ซึ่งช่วยให้องค์กรสามารถก้าวผ่านการวิเคราะห์ Keyword แบบง่าย ๆ ไปเป็นการวิเคราะห์ขั้นสูงอย่าง Sentiment Analysis (กระบวนการวิเคราะห์อารมณ์) และ Semantic Analysis (การวิเคราะห์ทางความหมาย) แม้ว่า NLP จะสามารถทำให้เครื่องจักรระบุจำนวนและเข้าใจแก่นแท้ของข้อความได้ แต่ก็ยังมีความท้าทายในเรื่องของการเข้าใจข้อความที่กำกวม  วิธีการที่จะรับมือกับข้อความกำกวมเหล่านี้ได้ก็คือการรวมความรู้และบริบทของโดเมนเข้าด้วยกันเป็นโมเดลภาษา โดยการใช้งานโมเดลที่ปรับปรุงอย่างดีแล้ว เช่น LegalBERT, SciBERT, FinBERT ฯลฯ ทั้งนี้ก็จะช่วยให้เริ่มต้นวิเคราะห์ข้อมูลได้ง่ายขึ้นสำหรับกรณีหากต้องการใช้งานแบบเฉพาะเจาะจง ตอนเริ่มแรกโมเดลที่ปรับปรุงอย่างดีแล้วจะมีฐานข้อมูลที่มั่นคง เช่นเดียวกับโมเดลที่ใหญ่ เช่น BERT และ GPT3 แต่อย่างไรก็ตามโมเดลเหล่านี้ยังคงไม่ตอบโจทย์หรือความต้องการของธุรกิจส่วนใหญ่ได้  ด้วยเหตุผลนี้เองธุรกิจที่ดำเนินการในหลายตลาด หลายภูมิภาค และหลายภาษาควรพิจารณาการใช้งานโมเดลภาษาข้ามโดเมน โมเดลหลายภาษา และ/หรือเทคนิคการโอนย้ายการเรียนรู้ (Transfer Learning) เพื่อรับมือกับความท้าทายได้ดียิ่งขึ้น แม้ว่าจะมีการวิจัยและพัฒนา Language Model Architectures ที่ดีขึ้นและครอบคลุมมากขึ้น แต่ทุกวันนี้ก็ยังไม่มี Solution ที่ใช้ได้กับทุกสิ่ง ด้วยเหตุผลนี้เองทำให้องค์กรที่พยายามสร้างโมเดลภาษาของตนก็ไม่สามารถทำได้ นอกจากนี้ยังมีปัจจัยอื่น ๆ ที่ส่งผลกระทบต่อกลยุทธ์ข้อมูลที่ไม่มีโครงสร้างขององค์กรอีก เช่น การขาดข้อมูลอธิบายประกอบ (Annotated Data) ไม่มีการอบรมเกี่ยวกับเรื่อง Data การที่องค์กรขาดความเข้าใจในการประยุกต์ใช้โมเดล และความที่องค์กรอยากจะรีบพัฒนาและอยากใช้งานอุปกรณ์อย่างรวดเร็วแต่ไม่มีทุนการทำ รวมถึงอยากรีบได้ผลตอบแทนคืนจากการลงทุนอีกด้วย วิธีที่องค์กรสามารถรับมือกับปัญหาข้อมูลที่ไม่มีโครงสร้างที่เพิ่มขึ้นได้ การนำข้อมูลมาใช้ขับเคลื่อนองค์กร (Data Strategy) และเทคโนโลยีมีบทบาทสำคัญในแผนกลยุทธ์ AI ทั่วไปขององค์กร  องค์กรส่วนใหญ่สามารถวางแผนและจัดการกับข้อมูลที่ไม่มีโครงสร้างได้อย่างมีประสิทธิภาพ แต่ทว่าข้อมูลเชิงลึกนั้นฝังอยู่ในข้อมูลที่ไม่มีโครงสร้าง และองค์กรต่างก็งมหาอยู่ในข้อมูลนี้ CDO ขององค์กรจึงจำเป็นต้องพิจารณาข้อมูลนี้และวางแผนอย่างชาญฉลาดเพื่อใช้ประโยชน์จากข้อมูลนี้ ความท้าทายที่ยากที่สุดที่มักพบได้คือการขาดความสอดคล้องเชิงองค์กรกับกลยุทธ์ AI ขององค์กร แม้ว่าจะไม่เกี่ยวข้องโดยตรงกับโมเดล ML (Machine Learning) และ DL (Deep Learning), ความสอดคล้องกับผู้นำ, ความเข้าใจถ่องแท้เรื่องข้อมูลและผลลัพธ์, และการรวมทีมที่หลากหลาย ทั้งหมดนี้ล้วนจำเป็นอย่างยิ่งสำหรับกลยุทธ์ AI ในองค์กร เพราะวิธีที่ระบุจำนวนได้และเน้นผลลัพธ์ช่วยให้ทีมมุ่งเน้นที่เป้าหมายปลายทางเมื่อเทียบกับโมเดล AI ที่เน้นโฆษณาชวนเชื่อ ตัวอย่างเช่น GPT3 ที่เป็นโมเดลคาดการณ์ภาษาขนาดใหญ่ที่มักจะคาดการณ์ไม่ค่อยถูกต้อง ซึ่งมีหลายกรณีที่มีการเผยแพร่ข้อมูลผิด ๆ เพราะใช้โมเดล GPT3 ซึ่งอาจทำให้องค์กรเสียชื่อเสียงได้ การอบรมและเรียนรู้เชิงลึกในการแก้ไขปัญหานั้นมักมีต้นทุนสูงและแอปพลิเคชันที่ต้องใช้เทคนิคที่เน้น NLP นั้นจำเป็นต้องมีแหล่งช่วยคำนวณที่ใช้โดเมนจำนวนมาก เพราะฉะนั้นเมื่อมีการเริ่มทีม AI ภายในองค์กร องค์กรจะต้องเน้นในเรื่องของการกำหนดปัญหาและผลลัพธ์ที่วัดได้ นอกจากการกำหนดปัญหาแล้ว ทีมผลิตภัณฑ์ต้องโฟกัสที่ความหลากหลาย ความซับซ้อน และความพร้อมใช้งานของข้อมูล ขั้นตอนเหล่านี้จะช่วยวางแผนกลวิธี ระบุโมเดลพื้นฐานที่เหมาะสม และสร้างการกำกับดูแลข้อมูลและการอบรมในเรื่องของฟังก์ชันการใช้งานที่ดี อีกวิธีหนึ่งที่ช่วยประหยัดค่าใช้จ่ายได้ คือ การเลือกพาร์ทเนอร์ที่เป็นบุคคลภายนอกหรือผู้ที่ให้บริการทางด้านนี้มาช่วยเริ่มกลยุทธ์ของคุณ  เทคโนโลยีของผู้ให้บริการช่วยให้องค์กรได้ใช้ประโยชน์จากความเชี่ยวชาญในการปฏิบัติงานและการดำเนินการที่ดีที่สุดในโมเดลภาษาที่ใหญ่กว่า  ตลอดจนประสบการณ์มากมายที่พวกเขาเคยรับมือกับปัญหาอื่น ๆ ที่เคยเกิดขึ้นมาแล้ว การร่วมใช้กลยุทธ์เพื่อจัดการกับปัญหาข้อมูลที่ไม่มีโครงสร้างขององค์กรและการใช้ประโยชน์จาก เทคนิค NLP กลายเป็นองค์ประกอบสำคัญของการขับเคลื่อนองค์กรด้วยข้อมูลและเทคโนโลยีที่ใช้ในองค์กร  แม้ว่าโมเดล RPA, OCR Plus, หรือโมเดล ML สถิติขั้นพื้นฐาน (Basic Statistical-based ML) จะไม่สามารถแก้ปัญหาทั้งหมดได้ แต่การใช้วิธีการเรียนรู้เชิงลึกก็จะเป็นแนวทางในการจัดการกับปัญหาข้อมูลที่ไม่มีโครงสร้างขององค์กรต่อไป บทความโดย InsideData Editorial Teamเนื้อหาจากบทความของ InsideBigdataแปลและเรียบเรียงโดย ไอสวรรค์ ไชยชะนะตรวจทานและปรับปรุงโดย ปพจน์ ธรรมเจริญพร
2 July 2022

บทความ

คลังข้อความภาษาไทย (Thai text corpus)
มาทำความรู้จักกับ คลังข้อความภาษาไทย ซึ่งเป็นชุดข้อความภาษาไทยจำนวนมหาศาลสำหรับโมเดลการประมวลผลภาษาธรรมชาติ อย่างที่ใช้ในสร้าง chatbot
4 April 2022

บทความ

GPT-3 คืออะไร? ปัญญาประดิษฐ์ที่จะมาแย่งงานคนทั่วโลกในอนาคต!?
GPT-3 คือโมเดลทางภาษาที่มีความสามารถหลากหลายและ(ดูเหมือน)มีความฉลาดคล้ายมนุษย์ AIนี้เป็นหนึ่งในหลายตัวที่ทำให้เกิดความตื่นกลัวของการนำ AI ทำงานแทนที่มนุษย์ ถึงแม้มันจะมีข้อจำกัดหลายอย่าง การพูดถึงการ AI ในการเข้ามาแทนภาคแรงงานในวันนี้เป็นเรื่องที่จำเป็นต้องทำความเข้าใจ เพราะมันไม่ได้น่ากลัว และซ่อนโอกาสในการเปลี่ยนแปลงโลกในอนาคต
21 December 2021

บทความ

การค้นหาตัวแทนเชิงความหมายของข้อความ: Word2Vec Word Embedding, Part II
หลังจากที่เราได้พูดถึงหลักการทำงานของโมเดลเบื้องต้นในการทำ word embedding ได้แก่โมเดล CBOW และ Skip-gram ไปแล้ว ในบทความนี้ เราจะมาพูดถึงวิธีการนำผลลัพธ์ที่ได้จากการฝึกฝนของโมเดลในตระกูล Word2Vec สองโมเดลนี้มาทำการสร้างตัวแทนเชิงความหมายของคำและเอกสาร พร้อมทั้งลองเขียนโค้ดง่ายๆ เพื่อลองประยุกต์ใช้งานกันครับ
26 July 2021

บทความ

การค้นหาตัวแทนเชิงความหมายของข้อความ: Word2Vec Word Embedding, Part I
ในปัจจุบันข้อมูลที่มีลักษณะเป็นข้อความ (text) นั้นมีอยู่เป็นปริมาณมากแต่การประมวลผลข้อมูลเหล่านี้ไม่สามารถทำได้อย่างตรงไปตรงมาและจำเป็นต้องมีการจัดเตรียม (preprocess) ให้อยู่ในลักษณะที่เหมาะสมแก่การนำไปคำนวณได้เสียก่อน ซึ่งการจัดเตรียมข้อมูลเหล่านี้สามารถทำได้จากหลากหลายเทคนิคไม่ว่าจะเป็นการทำการประมวลผลพื้นฐานในการใช้เทคนิคพวก Bag of Words หรือ TF-IDF จนไปถึง การทำ word embedding เพื่อพยายามหาตัวแทนความหมายของข้อมูล ในบทความนี้ เราจะมาพูดถึงเทคนิคเบื้องต้น (ซึ่งยังมีการใช้งานอยู่ในปัจจุบัน) ของการทำ word embedding ได้แก่เทคนิคตระกูล Word2Vec ที่มีความซับซ้อนไม่สูงและสามารถทำได้อย่างรวดเร็ว กันครับ
15 July 2021

บทความ

สกัดใจความสำคัญของข้อความด้วยเทคนิคการประมวลผลทางภาษาเบื้องต้น: TF-IDF, Part 2
ก่อนที่เราจะสามารถนำเอาเทคนิคการประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP) มาใช้กับภาษาไทยได้นั้น อุปสรรคหลักอย่างหนึ่ง คือ ภาษาไทยไม่ได้มีการเว้นวรรคระหว่างคำเหมือนหลายภาษาอื่น (เช่น ภาษาอังกฤษ) ดังนั้น การ “ตัดคำ” หรือการแยกข้อความภาษาไทยออกเป็นคำเดี่ยวๆ จึงเป็นสิ่งที่จำเป็นแรกที่ต้องทำ
11 November 2020

บทความ

สกัดใจความสำคัญของข้อความด้วยเทคนิคการประมวลผลทางภาษาเบื้องต้น: TF-IDF, Part 1
ข้อมูลในรูปแบบข้อความมีรูปแบบและความยาวที่หลากหลาย ส่งผลให้ข้อมูลชนิดข้อความถูกนำมาวิเคราะห์ได้ยากกว่ามาก ดังนั้นความสามารถในการสกัดเอาข้อมูลที่สำคัญออกมาจากจากข้อความ (Text Mining) ได้จึงเป็นสิ่งที่สำคัญและเป็นประโยชน์อย่างมาก
1 October 2020
PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings