สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

การแก้ปัญหาข้อมูลที่ไม่มีโครงสร้างด้วย NLP และโมเดลภาษาหนึ่งในกลยุทธ์ AI ขององค์กร

Jul 2, 2022
การแก้ปัญหาข้อมูลที่ไม่มีโครงสร้างด้วย NLP และโมเดลภาษาหนึ่งในกลยุทธ์ AI ขององค์กร
การแก้ปัญหาข้อมูลที่ไม่มีโครงสร้างด้วย NLP และโมเดลภาษาหนึ่งในกลยุทธ์ AI ขององค์กร

ในบทความแขกรับเชิญพิเศษนี้ ประภท สุนการะ (Prabhod Sunkara) ผู้ร่วมก่อตั้งและ COO ของบริษัท nRoad, Inc. ได้พูดถึงเรื่องของการที่องค์กรต่าง ๆ พึ่งพาข้อมูลที่ไม่มีโครงสร้างมากขึ้นเพื่อจุดประสงค์ในการวิเคราะห์ กำกับดูแล และทำการตัดสินใจในระดับองค์กร โดย nRoad เป็นแพลตฟอร์มที่สร้างมาเพื่อการประมวลผลภาษาธรรมชาติ (NLP) สำหรับข้อมูลที่ไม่มีโครงสร้างในส่วนการบริการทางด้านการเงินและเป็นบริษัทแรกที่ประกาศ “สงครามกับการทำงานแบบใช้เอกสาร”  ก่อนจะมี nRoad ประภทดำรงตำแหน่งผู้นำหลากหลายตำแหน่งในด้านการพัฒนาผลิตภัณฑ์ การปฏิบัติการ และ Solution Architecture (ตำแหน่งงานที่หาทางออกของปัญหาต่าง ๆ)  เขามี Passion ในการสร้าง AI Solutions ที่เน้นผลลัพธ์ ซึ่งเขาก็ได้ประสบความสำเร็จในการปรับปรุงกระบวนการต่าง ๆ ของบริษัทการเงินระดับโลกมากมายเช่น Bank of America, Merrill Lynch, Morgan Stanley และ UBS

ข้อมูลที่ไม่มีโครงสร้างหรือ Unstructured Data คือ ข้อมูลเชิงลึกที่มีอยู่แพร่หลายในทั่วทุกองค์กร แต่ข้อมูลเหล่านั้นไม่โปร่งใสหรือไม่สามารถใช้งานได้เสมอไป เรื่องนี้จึงยังคงเป็นความท้าทายสำคัญด้านธุรกิจ  ข้อมูลที่ไม่มีการออกแบบฐานข้อมูลไว้ล่วงหน้ามักจะถือว่าเป็นข้อมูลที่ไม่มีโครงสร้าง ซึ่งได้แก่เอกสารและเว็บไซต์ที่เต็มไปด้วยตัวหนังสือตลอดจนไฟล์ภาพ, วิดีโอ, Chatbot, Audio Streaming และโพสต์โซเชียลมีเดีย โดยข้อมูลที่ไม่มีโครงสร้างเหล่านี้มีจำนวนมากถึง 80 ถึง 90 เปอร์เซ็นต์ของข้อมูลที่อยู่ในโลกดิจิทัลทั้งหมด

การเติบโตและความท้าทายของข้อมูลที่ไม่มีโครงสร้าง

จากการวิจัยของบริษัท ITC พบว่า จำนวนข้อมูลที่ไม่มีโครงสร้างนั้นคาดว่าจะเติบโตจาก 33 เซตตะไบต์ในปี 2018 เป็น 175 เซตตะไบต์ หรือ 175 พันล้านเทระไบต์ภายในปี 2025 แต่ยังโชคดีที่ในองค์การเริ่มมีการตระหนักถึงการเติบโตอย่างรวดเร็วของข้อมูลที่ไม่มีโครงสร้าง ตัวอย่างเช่น ในการวิจัยไม่นานมานี้เผยว่าเกือบ 80 เปอร์เซ็นต์ขององค์กรบริการด้านการเงินกำลังประสบกับการที่ข้อมูลที่ไม่มีโครงสร้างเพิ่มขึ้นอย่างรวดเร็ว ยิ่งไปกว่านั้น ผู้วิจัยส่วนใหญ่ในการวิจัยนี้ระบุว่า ข้อมูลปัจจุบันในองค์กรเป็นข้อมูลที่ไม่มีโครงสร้างมากถึง 50 ถึง 90 เปอร์เซ็นต์ด้วยกัน

เมื่อก่อนคอมพิวเตอร์ไม่สามารถเข้าใจข้อมูลประเภทนี้ได้ แต่เนื่องจากในปัจจุบันที่องค์กรต่าง ๆ ต้องพึ่งพาข้อมูลที่ไม่มีโครงสร้างมากขึ้นในการวิเคราะห์ กำกับดูแล และการตัดสินใจทางธุรกิจ ข้อมูลที่ไม่มีโครงสร้างจึงมีความสำคัญมากขึ้น ทำให้ทีม Technology & Data ต่างแข่งกันอัปเกรดและปรับปรุงโครงสร้างพื้นฐานของตน เพื่อให้สอดคล้องกับบริการแบบคลาวด์ที่เติบโตขึ้นและข้อมูลจากทั้งภายในและภายนอกองค์กรที่เพิ่มขึ้นอย่างรวดเร็ว

ขณะเดียวกัน ทีมเหล่านี้ก็กำลังสนใจในเรื่องของการใช้งานข้อมูลเชิงลึก (Insights) ที่ฝังอยู่ในแหล่งข้อมูลที่ไม่มีโครงสร้าง โดยกรณีการใช้งานจะมีตั้งแต่การเพิ่มประสิทธิภาพในการปฏิบัติการไปจนถึงการเตรียมพร้อมรับมือกับการบริการลูกค้าปลายทาง ผลก็คือทั้ง CIO และ CDO ต่างก็ประเมินผลหรือนำวิธีการแก้ไขไปใช้งาน โดยมีตั้งแต่วิธีง่าย ๆ แบบ OCR Plus ไปจนถึงโมเดลภาษาขนาดใหญ่ที่ซับซ้อนควบคู่กับเครื่องจักรหรือเทคนิคการเรียนรู้เชิงลึก

การร่วมใช้ NLP และโมเดลภาษาในกลยุทธ์ข้อมูลของคุณ

ข้อมูลที่ไม่มีโครงสร้างจำนวนมากของบริษัทจะอยู่ในรูปแบบตัวหนังสือ ตัวอย่างเช่นสัญญาทางกฎหมาย เอกสารงานวิจัย คำติชมของลูกค้าจาก Chatbot และทุกอย่างที่อยู่ในรูปแบบของตัวหนังสือ ซึ่งโดยปกติแล้ว องค์กรจะประยุกต์ใช้การประมวลผลภาษาธรรมชาติ (NLP) มาเป็นส่วนหนึ่งของกลยุทธ์ AI และการเปลี่ยนองค์กรมาเป็นองค์กรดิจิทัล (ลองดูตัวอย่างการใช้ประยุกต์ใช้ Data Science กับการวิเคราะห์ข้อมูลเอกสารงานวิจัยที่นี่)

ตลอดสิบปีที่ผ่านมา NLP มีงานวิจัยและการพัฒนาอย่างต่อเนื่อง เรื่องที่โดดเด่นที่สุดก็คือ เรื่องวิวัฒนาการของ Transformer Model ซึ่งช่วยให้องค์กรสามารถก้าวผ่านการวิเคราะห์ Keyword แบบง่าย ๆ ไปเป็นการวิเคราะห์ขั้นสูงอย่าง Sentiment Analysis (กระบวนการวิเคราะห์อารมณ์) และ Semantic Analysis (การวิเคราะห์ทางความหมาย) แม้ว่า NLP จะสามารถทำให้เครื่องจักรระบุจำนวนและเข้าใจแก่นแท้ของข้อความได้ แต่ก็ยังมีความท้าทายในเรื่องของการเข้าใจข้อความที่กำกวม  วิธีการที่จะรับมือกับข้อความกำกวมเหล่านี้ได้ก็คือการรวมความรู้และบริบทของโดเมนเข้าด้วยกันเป็นโมเดลภาษา โดยการใช้งานโมเดลที่ปรับปรุงอย่างดีแล้ว เช่น LegalBERT, SciBERT, FinBERT ฯลฯ ทั้งนี้ก็จะช่วยให้เริ่มต้นวิเคราะห์ข้อมูลได้ง่ายขึ้นสำหรับกรณีหากต้องการใช้งานแบบเฉพาะเจาะจง

ตอนเริ่มแรกโมเดลที่ปรับปรุงอย่างดีแล้วจะมีฐานข้อมูลที่มั่นคง เช่นเดียวกับโมเดลที่ใหญ่ เช่น BERT และ GPT3 แต่อย่างไรก็ตามโมเดลเหล่านี้ยังคงไม่ตอบโจทย์หรือความต้องการของธุรกิจส่วนใหญ่ได้  ด้วยเหตุผลนี้เองธุรกิจที่ดำเนินการในหลายตลาด หลายภูมิภาค และหลายภาษาควรพิจารณาการใช้งานโมเดลภาษาข้ามโดเมน โมเดลหลายภาษา และ/หรือเทคนิคการโอนย้ายการเรียนรู้ (Transfer Learning) เพื่อรับมือกับความท้าทายได้ดียิ่งขึ้น

แม้ว่าจะมีการวิจัยและพัฒนา Language Model Architectures ที่ดีขึ้นและครอบคลุมมากขึ้น แต่ทุกวันนี้ก็ยังไม่มี Solution ที่ใช้ได้กับทุกสิ่ง ด้วยเหตุผลนี้เองทำให้องค์กรที่พยายามสร้างโมเดลภาษาของตนก็ไม่สามารถทำได้ นอกจากนี้ยังมีปัจจัยอื่น ๆ ที่ส่งผลกระทบต่อกลยุทธ์ข้อมูลที่ไม่มีโครงสร้างขององค์กรอีก เช่น การขาดข้อมูลอธิบายประกอบ (Annotated Data) ไม่มีการอบรมเกี่ยวกับเรื่อง Data การที่องค์กรขาดความเข้าใจในการประยุกต์ใช้โมเดล และความที่องค์กรอยากจะรีบพัฒนาและอยากใช้งานอุปกรณ์อย่างรวดเร็วแต่ไม่มีทุนการทำ รวมถึงอยากรีบได้ผลตอบแทนคืนจากการลงทุนอีกด้วย

วิธีที่องค์กรสามารถรับมือกับปัญหาข้อมูลที่ไม่มีโครงสร้างที่เพิ่มขึ้นได้

การนำข้อมูลมาใช้ขับเคลื่อนองค์กร (Data Strategy) และเทคโนโลยีมีบทบาทสำคัญในแผนกลยุทธ์ AI ทั่วไปขององค์กร  องค์กรส่วนใหญ่สามารถวางแผนและจัดการกับข้อมูลที่ไม่มีโครงสร้างได้อย่างมีประสิทธิภาพ แต่ทว่าข้อมูลเชิงลึกนั้นฝังอยู่ในข้อมูลที่ไม่มีโครงสร้าง และองค์กรต่างก็งมหาอยู่ในข้อมูลนี้ CDO ขององค์กรจึงจำเป็นต้องพิจารณาข้อมูลนี้และวางแผนอย่างชาญฉลาดเพื่อใช้ประโยชน์จากข้อมูลนี้

ความท้าทายที่ยากที่สุดที่มักพบได้คือการขาดความสอดคล้องเชิงองค์กรกับกลยุทธ์ AI ขององค์กร แม้ว่าจะไม่เกี่ยวข้องโดยตรงกับโมเดล ML (Machine Learning) และ DL (Deep Learning), ความสอดคล้องกับผู้นำ, ความเข้าใจถ่องแท้เรื่องข้อมูลและผลลัพธ์, และการรวมทีมที่หลากหลาย ทั้งหมดนี้ล้วนจำเป็นอย่างยิ่งสำหรับกลยุทธ์ AI ในองค์กร เพราะวิธีที่ระบุจำนวนได้และเน้นผลลัพธ์ช่วยให้ทีมมุ่งเน้นที่เป้าหมายปลายทางเมื่อเทียบกับโมเดล AI ที่เน้นโฆษณาชวนเชื่อ ตัวอย่างเช่น GPT3 ที่เป็นโมเดลคาดการณ์ภาษาขนาดใหญ่ที่มักจะคาดการณ์ไม่ค่อยถูกต้อง ซึ่งมีหลายกรณีที่มีการเผยแพร่ข้อมูลผิด ๆ เพราะใช้โมเดล GPT3 ซึ่งอาจทำให้องค์กรเสียชื่อเสียงได้

การอบรมและเรียนรู้เชิงลึกในการแก้ไขปัญหานั้นมักมีต้นทุนสูงและแอปพลิเคชันที่ต้องใช้เทคนิคที่เน้น NLP นั้นจำเป็นต้องมีแหล่งช่วยคำนวณที่ใช้โดเมนจำนวนมาก เพราะฉะนั้นเมื่อมีการเริ่มทีม AI ภายในองค์กร องค์กรจะต้องเน้นในเรื่องของการกำหนดปัญหาและผลลัพธ์ที่วัดได้ นอกจากการกำหนดปัญหาแล้ว ทีมผลิตภัณฑ์ต้องโฟกัสที่ความหลากหลาย ความซับซ้อน และความพร้อมใช้งานของข้อมูล ขั้นตอนเหล่านี้จะช่วยวางแผนกลวิธี ระบุโมเดลพื้นฐานที่เหมาะสม และสร้างการกำกับดูแลข้อมูลและการอบรมในเรื่องของฟังก์ชันการใช้งานที่ดี

อีกวิธีหนึ่งที่ช่วยประหยัดค่าใช้จ่ายได้ คือ การเลือกพาร์ทเนอร์ที่เป็นบุคคลภายนอกหรือผู้ที่ให้บริการทางด้านนี้มาช่วยเริ่มกลยุทธ์ของคุณ  เทคโนโลยีของผู้ให้บริการช่วยให้องค์กรได้ใช้ประโยชน์จากความเชี่ยวชาญในการปฏิบัติงานและการดำเนินการที่ดีที่สุดในโมเดลภาษาที่ใหญ่กว่า  ตลอดจนประสบการณ์มากมายที่พวกเขาเคยรับมือกับปัญหาอื่น ๆ ที่เคยเกิดขึ้นมาแล้ว

การร่วมใช้กลยุทธ์เพื่อจัดการกับปัญหาข้อมูลที่ไม่มีโครงสร้างขององค์กรและการใช้ประโยชน์จาก เทคนิค NLP กลายเป็นองค์ประกอบสำคัญของการขับเคลื่อนองค์กรด้วยข้อมูลและเทคโนโลยีที่ใช้ในองค์กร  แม้ว่าโมเดล RPA, OCR Plus, หรือโมเดล ML สถิติขั้นพื้นฐาน (Basic Statistical-based ML) จะไม่สามารถแก้ปัญหาทั้งหมดได้ แต่การใช้วิธีการเรียนรู้เชิงลึกก็จะเป็นแนวทางในการจัดการกับปัญหาข้อมูลที่ไม่มีโครงสร้างขององค์กรต่อไป

บทความโดย InsideData Editorial Team
เนื้อหาจากบทความของ InsideBigdata
แปลและเรียบเรียงโดย ไอสวรรค์ ไชยชะนะ
ตรวจทานและปรับปรุงโดย ปพจน์ ธรรมเจริญพร

Isawan Chaichana

Translator

Papoj Thamjaroenporn

Former-Editor-in-Chief at BigData.go.th and Senior Data Scientist at GBDi