Papoj Thamjaroenporn

Papoj Thamjaroenporn

Former-Editor-in-Chief at BigData.go.th and Senior Data Scientist at Government Big Data Institute (GBDi )

บทความของผู้เขียน

Articles

Author Category Post Filter
Digital Transformation สิ่งที่ทุกองค์กรต้องทำเพื่อความอยู่รอด
Digital Transformation เป็นคำที่องค์กรต่าง ๆ ทั่วโลกและในประเทศไทยเริ่มรับรู้และตระหนักอย่างจริงจังในช่วงทศวรรษที่ผ่านมา ตั้งแต่รายงานโดย McKinsey ในปี ค.ศ. 2017 ว่ามีองค์กรเพียง 40% ในภาคธุรกิจโดยรวมที่เข้าสู่ความเป็นดิจิทัลอย่างเต็มตัว มาจนถึงทุกวันนี้ในยุคหลังโควิด-19 (post-pandemic/new normal era) เราแทบจะนึกไม่ออกแล้วว่า มีองค์กรใดบ้างที่ยังไม่ได้เข้าสู่ความเป็นดิจิทัลทางใดทางหนึ่งแล้วยังอยู่รอดได้ แต่นั่นไม่ได้หมายความว่าทุกองค์กรจะสร้างความเปลี่ยนแปลงทางดิจิทัลได้อย่างประสบความสำเร็จ บางองค์กรโอบรับเทคโนโลยีดิจิทัลเข้ามาพร้อมกันหลายชิ้น แต่กลับเป็นเทคโนโลยีที่ไม่เชื่อมโยงกัน บางองค์กรพยายามบังคับให้คนในองค์กรต้องปรับวิถีการทำงานผ่านเทคโนโลยีชิ้นใหม่ แต่ทำได้ไม่นาน พนักงานก็กลับมาทำงานตามวิถีเดิม ทำให้องค์กรเสียทรัพยากรและค่าใช้จ่ายสูญเปล่ามหาศาล หลาย ๆ ท่านคงจะสงสัยกันแล้วว่า ในบทความนี้ ผมจะพาท่านผู้อ่านมาลองศึกษาและตอบคำถามเหล่านี้กันครับ วิวัตนาการ 3 ขั้นตอน สู่ Digital Transformation ก่อนอื่นเรามาทำความเข้าใจร่วมกันก่อนว่า กว่าองค์กรหนึ่งจะทำ Digital Transformation ได้นั้นจริง ๆ แล้วจะต้องผ่านวิวัฒนาการทางเทคโนโลยีสามขั้นตอน คือ Digitization, Digitalization, และตามท้ายด้วย Digital Transformation Digitization คือ การแปลงข้อมูลแบบแอนะล็อก (analog) เป็นข้อมูลแบบดิจิทัล (digital) ตัวอย่างคลาสสิกคือการสแกนเอกสารกระดาษเป็นเอกสารดิจิทัล เก็บในรูปแบบไฟล์ในระบบคอมพิวเตอร์ ลดความจำเป็นในการใช้ตู้เก็บเอกสาร ลดความเสี่ยงจากความเสียหายของข้อมูลในกรณีที่เอกสารเริ่มเก่า ขาด หรือเปียกน้ำ อีกตัวอย่างหนึ่งคือการใช้ word processor อย่าง Microsoft Word ในการสร้างเอกสารดิจิทัล แทนการสร้างเอกสารด้วยเครื่องพิมพ์ดีด Digitalization เป็นขั้นกว่าของ Digitization ซึ่งหมายถึงการใช้เทคโนโลยีดิจิทัลเพื่อทำสิ่งที่องค์กรทำได้อยู่แล้ว แต่ทำได้ดี เร็ว หรือประหยัดทรัพยากรได้มากกว่าเดิม ยกตัวอย่างเช่น การค้นหาข้อมูลจากเอกสาร ถ้าเป็นเอกสารกระดาษ องค์กรต้องใช้คนเปิดตู้เอกสารแล้วไล่ดูทีละแฟ้มจนเจอข้อมูลที่ต้องการ แต่การนำเทคโนโลยีดิจิทัลอย่างคอมพิวเตอร์มาใช้นั้น คอมพิวเตอร์จะสามารถค้นหาเอกสารที่ต้องการได้อย่างง่ายดายและรวดเร็ว ผ่านการพิมพ์คำค้นหาไม่กี่คำ โดยใช้ประโยชน์จากเทคโนโลยีการจัดเรียง (indexing and sorting) ไฟล์ดิจิทัลบนเครื่องคอมพิวเตอร์ และที่สำคัญคือ ประหยัดทรัพยากรมนุษย์อีกด้วย จะสังเกตได้ว่า Digitization และ Digitalization ไม่ได้ทำให้ธุรกิจหรือองค์กรสามารถทำอะไรใหม่ ๆ ได้มากกว่าเดิม เอกสารข้อมูลก็ยังคงมีอยู่ การค้นหาเอกสารก็ยังทำได้เหมือนเดิม แต่สามารถทำได้ดีขึ้น รวดเร็วขึ้น มีประสิทธิภาพมากขึ้น Digital Transformation คือการเปลี่ยนแปลงขั้นสูงทางดิจิทัลสำหรับองค์กร ซึ่งเป็นการนำเทคโนโลยีดิจิทัลเข้ามาสร้างนวัตกรรมใหม่ เปลี่ยนวิถีการทำธุรกิจหรือธุรกรรมไปจากเดิมโดยสิ้นเชิง และสร้างคุณค่า (value) ให้กับลูกค้าหรือผู้ใช้งานในทุกโอกาส (นิยามโดย Salesforce) โดยเริ่มจากการตั้งคำถามว่า “เราจะพลิกโฉมธุรกิจและกระบวนงานของเราได้อย่างไร ให้องค์กรก้าวไปสู่ขั้นกว่าของการตัดสินใจที่ดีขึ้น ประสิทธิภาพที่เพิ่มขึ้น และประสบการณ์ของลูกค้าและผู้ใช้งานที่ตรงใจมากขึ้น?” Digital Transformation เป็นการนำเทคโนโลยีดิจิทัลเข้ามาสร้างนวัตกรรมใหม่ เปลี่ยนวิถีการทำธุรกิจหรือธุรกรรมไปจากเดิมโดยสิ้นเชิง และสร้างคุณค่า (value) ให้กับลูกค้าหรือผู้ใช้งานในทุกโอกาส หากเรามองย้อนกลับไปที่ตัวอย่างของการจัดเก็บเอกสาร หากเราผนวก word processor ผนวกกับเทคโนโลยีคลาวด์ และ smartphones ทำให้พนักงานภายในองค์กรสามารถ (1) แก้ไขเอกสารได้ทันที, (2) เข้าถึงเอกสารจากที่ไหนก็ได้ โดยไม่จำเป็นต้องเดินทางไปออฟฟิศ, (3) สามารถใช้งาน collaboration feature เพื่อจัดทำเอกสารร่วมกับเพื่อนร่วมงานได้ ซึ่งสิ่งเหล่านี้เป็นขีดความสามารถ (capabilities) ใหม่ ๆ ที่องค์กรไม่เคยทำได้มาก่อนด้วยเทคโนโลยีเดิม ๆ ซึ่งช่วยเพิ่มประสิทธิภาพภายในองค์กรได้อย่างไม่เคยมีมาก่อน อีกตัวอย่างที่คลาสสิกมาก คือ กรณีศึกษาของ Netflix ที่ผันตนเองจากเดิมที่เคยเป็นผู้ให้บริการเช่าวิดีโอ มาเป็นผู้ให้บริการความบันเทิงผ่านช่องทาง streaming ซึ่งสอดคล้องกับเทคโนโลยีอินเตอร์เน็ตความเร็วสูงที่คนทั่วไปสามารถเข้าถึงได้ในวงการมากขึ้น ซึ่ง Digital Transformation ของ Netflix ทำให้เกิดประสบการณ์ที่ดีเยี่ยมกับผู้ใช้งานที่เทคโนโลยีเดิมไม่สามารถทำได้มาก่อน นั่นคือ ระบบการแนะนำสิ่งที่ตรงใจผู้ใช้งาน หรือ recommender system ซึ่งเกิดขึ้นได้จากการวิเคราะห์ข้อมูลด้านความชอบและพฤติกรรมการดูหนังของผู้ใช้งานที่ถูกจัดเก็บในรูปแบบดิจิทัล (อ่านเพิ่มเติมเกี่ยวกับนวัตกรรมดิจิทัลของ Netflix ได้ที่นี่) และประสบการณ์ที่ดีกว่าอย่างไม่เคยมีมาก่อนนี้ ทำให้ Netflix เข้ามาสร้างความสั่นสะเทือน (disruption) ในธุรกิจสื่อและความบันเทิงที่มีอยู่เดิม และแน่นอนว่า องค์กรที่ไม่สามารถปรับตัวได้ทันก็จะไม่สามารถดำเนินธุรกิจได้ต่ออย่างยั่งยืน Digital Transformation สามารถทำให้องค์กรหรือบริษัทหนึ่งสร้างความสั่นสะเทือน (disruption) ในวงการธุรกิจที่มีอยู่เดิม และแน่นอนว่า องค์กรที่ไม่สามารถปรับตัวได้ทันก็จะไม่สามารถดำเนินธุรกิจได้ต่ออย่างยั่งยืน มากกว่าการพัฒนาศักยภาพ Digital Transformation คือหนทางรอด จากนิยามความหมายของ Digital Transformation ข้างต้น เราพอจะเห็นภาพว่าทำไม Digital Transformation ถึงสำคัญ นั่นเป็นเพราะ Digital Transformation เป็นมากกว่าการแค่ทำให้องค์กรขึ้นพัฒนาศักยภาพตนเองให้ดีขึ้น แต่หลาย ๆ ครั้ง มันหมายถึง หนทางรอด ของธุรกิจนั้น ๆ เพราะถ้าองค์กรหรือบริษัทหนึ่ง ๆ ไม่วิวัฒนาการตนเองผ่าน disruption ในไม่ช้าก็จะต้องถูกองค์กรหรือบริษัทอื่น disrupt อยู่ดี นอกจากนี้แล้ว ผู้คนทั้งบุคลากรภายในองค์กรและบุคคลภายนอกที่ทำธุรกรรมกับองค์กรยุคใหม่ล้วนมีความคาดหวังที่สูงขึ้นจากความสะดวกสบายที่เทคโนโลยีดิจิทัลจะนำเสนอประสบการณ์ที่ดีให้ลูกค้าและผู้ใช้งานได้ ไม่ว่าจะเป็น และความคาดหวังที่สูงเหล่านี้สามารถถูกตีมูลค่าออกมาเป็นตัวเงินได้อีกด้วย ผลการวิจัยโดย Isobar ค.ศ. 2017 ได้ทำการศึกษาบริษัทที่จดทะเบียนในตลาดหลักทรัพย์ในสหรัฐอเมริกากว่า 1,000 บริษัท และค้นพบความสัมพันธ์ (correlation) ระหว่าง “ความมีศักยภาพทางดิจิทัล” ของบริษัทและราคาหุ้นของบริษัทในระยะยาวซึ่ง “ความมีศักยภาพทางดิจิทัล” นี้ถูกวัดโดยการพิจารณาจากองค์ประกอบต่าง ๆ เช่น ความเป็นที่รู้จักของแบรนด์ผ่านช่องทางดิจิทัล สัดส่วนรายได้ที่มาจากช่องทางดิจิทัล เป็นต้น ทำไม Digital Transformation ถึงทำยาก? การที่หลาย ๆ องค์กรก็ยังไม่สามารถทำ Digital Transformation ได้เป็นผลสำเร็จ อุปสรรคและข้อผิดพลาดที่มักเกิดขึ้น (Common Mistakes) สามารถแบ่งหลัก ๆ ได้เป็นกรณีดังนี้: ในงานสัมมนา Big Data Leadership Summit 2021 คุณปาจรีย์ แสงคำ Head of Digitization จากโอสถสภา ผู้เชี่ยวชาญด้าน Digital Transformation ได้กล่าวไว้ว่า อุปสรรคในการทำ Digital Transformation ที่สำคัญที่สุดไม่ใช่เรื่องทางเทคนิคหรือตัวเทคโนโลยีที่ใช้ แต่เป็นเรื่องของการบริหารจัดการทรัพยากรบุคคลในองค์กร การปรับเปลี่ยนทัศนคติ ความเชื่อ และอุปนิสัยที่บุคลากรภายในองค์กรอาจคุ้นชินกับวิธีการทำงานแบบเดิม ๆ ที่ได้ผลอยู่แล้ว ประกอบกับผลเสียที่อาจเกิดขึ้นหากมีการเปลี่ยนแปลงวิธีการทำงานแล้วเกิดข้อผิดพลาด ทำให้บุคลากรภายในองค์กรอาจมีกรอบความคิด (mindset) ที่ว่า “if it ain't broke, don't fix it.” (อย่าไปเปลี่ยนอะไรที่มันยังไม่เสีย) ซึ่งอาจรักษาเสถียรภาพขององค์กรโดยรวมไว้ได้ แต่ชุดวิธีคิดเช่นนี้กลับกลายเป็นอุปสรรคต่อวิวัฒนาการขององค์กรสู่ความเป็นดิจิทัล การปรับเปลี่ยนพฤติกรรม วิถีการปฏิบัติงาน และทัศนคติต่อการทำงานภายในองค์กรสู่ Digital Transformation คุณปาจรีย์ได้ให้ข้อแนะนำในหลักการเปลี่ยนพฤติกรรม วิถีการปฏิบัติงาน และทัศนคติต่อการทำงานภายในองค์กร สู่การขับเคลื่อนด้วย Digital Transformation ดังนี้ อุปสรรคในการทำ Digital Transformation ไม่ได้มีเพียงเรื่องทางเทคนิค แต่เป็นเรื่องของการบริหารจัดการทรัพยากรบุคคลในองค์กร แนวทางของกระบวนการ Digital Transformation             ถึงแม้ว่ากระบวนการทำ Digital Transformation จะไม่ได้มีสูตรสำเร็จตายตัว แต่องค์ประกอบที่ชัดเจนที่คุณปาจรีย์ได้แนะนำไว้ โดยอ้างถึงแนวคิดจาก Gartner คือ การปลูกฝังค่านิยมและชุดความคิด (mindset) ผนวกกับกระบวนการทำงาน (process) ที่พร้อมรับความเปลี่ยนแปลงอยู่เสมอ เมื่อถูกขยายผลด้วยเทคโนโลยี (technology) ที่ตอบโจทย์และภารกิจขององค์กร จะนำไปสู่ขีดความสามารถ (capabilities) ใหม่ ๆ ที่สร้างประสิทธิผลเชิงประจักษ์ บทสรุป ท่ามกลางยุคที่ความเปลี่ยนแปลงเป็นเรื่องปกติ องค์กรที่ผ่านกระบวนการ Digital Transformation จะสร้างขีดความสามารถในการผลิตนวัตกรรมที่เป็นมากกว่าการเติบโต แต่อาจหมายถึงความอยู่รอดขององค์กร ทั้งนี้ คุณปาจรีย์ได้เน้นย้ำว่า ความท้าทายหลักของ Digital Transformation คือการบริหารจัดการทรัพยากรบุคคล และวัฒนธรรมองค์กร ซึ่งองค์กรสามารถเริ่มวางยุทธศาสตร์ตามหลักการเปลี่ยนพฤติกรรมและชุดความคิด (behavior and mindset) ภายในองค์กร ผนวกกับกระบวนการ และเทคโนโลยีที่เหมาะสม เนื้อหาโดย ปพจน์ ธรรมเจริญพร ตรวจทานและปรับปรุงโดย ปพจน์ ธรรมเจริญพร
1 June 2023
4 เหตุผลที่จะทำให้คุณตกหลุมรัก Box Plot
ในบทความนี้ ผมจะมาพาผู้อ่านทุกท่านทำความรู้จักกับ Box Plot แผนภาพอันทรงพลังที่ใช้ในการวิเคราะห์การกระจายตัวของข้อมูล บอกได้เลยว่าสามารถใช้วิเคราะห์ได้ดีไม่แพ้ Histogram เลยครับ! การวิเคราะห์การกระจายตัวของข้อมูล คำถามที่เกี่ยวข้องกับการวิเคราะห์การกระจายตัวของข้อมูล มีอยู่ในชีวิตประจำวันของเราทุกคน ยกตัวอย่างเช่น ซึ่งหลาย ๆ คน จะคุ้นเคยกับการตอบคำถามด้านบนด้วย Histogram ซึ่งก็ถือว่าเป็นตัวเลือก “คลาสสิก” เพราะทุกคนจะเคยเรียนรู้สิ่งนี้มาก่อนในวิชาคณิตศาสตร์ โดย Histogram เป็นการนำข้อมูลเชิงปริมาณ (Numerical Data) มา “นับจำนวนครั้ง” ที่พบค่าของข้อมูล ตามช่วงข้อมูลหรืออันตรภาคชั้น (Bins) และเมื่อเราสร้าง Histogram แล้ว เราสามารถตอบคำถามด้านบนได้หลากหลาย เช่น บทความนี้จะขอนำเสนอ 4 เหตุผลที่จะทำให้ผู้อ่านตกหลุมรัก Box Plot โดยจะมีการอธิบายรายละเอียดวิธีการทำงานของ Box Plot ภายในเนื้อหาด้วย เริ่มต้นที่เหตุผลข้อที่หนึ่งในส่วนถัดไปกันเลยครับ ? เหตุผลข้อ 1: Box Plot ประหยัดพื้นที่ ในยุคดิจิทัลทุกวันนี้ Business Intelligence, Visual Analytics, และ Data Visualization ได้เข้ามามีบทบาทในองค์กรต่าง ๆ ทั้งเรื่องการบริหารจัดการ การดูสถานะ การวางแผน และการตัดสินใจ ทำให้พื้นที่บนหน้าจออุปกรณ์พกพาต่าง ๆ ของเรากลายเป็น Real Estate ยุคใหม่ แน่นอนว่า การนำเสนอข้อมูลอะไรที่ใช้เนื้อที่เยอะเกินไป ดูจะไม่ค่อยคุ้มเสียแล้ว ซึ่งในการแสดงข้อมูลชุดเดียวกัน Box Plot สามารถย่อส่วนพื้นที่ที่จำเป็นต่อการแสดงข้อมูลจากแผนภาพสองมิติ (2D) เหลือเพียงมิติเดียว (1D) ทำให้เป็นแผนภาพที่เหมาะกับยุคดิจิทัลที่พื้นที่บนหน้าจอของเรามีจำกัด แต่ Box Plot ที่ถูกย่อส่วนลงมาแล้ว จะยังตอบคำถามหลาย ๆ คำถามได้เหมือน Histogram หรือไม่? เรามาดูเหตุผลข้อถัดไปกันครับ เหตุผลข้อ 2: Box Plot อัดแน่นไปด้วยข้อมูล แผนภาพ Box Plot ได้ชดเชยขนาดที่เล็ก ด้วยหลักการวาดส่วนสำคัญต่าง ๆ ของกล่องด้วยปริมาณที่สำคัญทางสถิติ ทำให้ Box Plot ยังคงให้ข้อมูลและข้อสังเกตได้หลากหลายประการ แต่ก่อนอื่นเราลองมาทำความรู้จักกับส่วนประกอบต่าง ๆ ของ Box Plot กันก่อนครับ Box Plot ประกอบไปด้วยส่วนของ “กล่อง” (Box) กับส่วนของ “หนวด” (Whiskers) และมีจุด ๆ แสดงข้อมูลจริง​ โดยอาจอยู่ได้ทั้งในและนอกหนวด (บางครั้งเราจะเห็นบางเวอร์ชันของแผนภาพที่โชว์จุดข้อมูลนอก Whiskers อย่างเดียว ก็ยังนับเป็น Box Plot อยู่) ซึ่งตำแหน่งของ Box และ Whiskers ถูกสร้างขึ้นมาได้ โดยตัวเลขทางสถิติทั้งหมดถึง 5 ตัวด้วยกัน เรียกรวมกันว่า The Five-Number Summary ประกอบไปด้วย: เพื่อยกตัวอย่างให้เห็นภาพ สมมติว่าเรานำข้อมูลอายุขัยของประชากรเพศชาย (Life Expectancy for Males) มาวางเรียงกัน จากน้อยไปหามาก แล้วหาค่าตามหลัก The Five-Number Summary แล้วคำนวณได้ว่า ค่าเหล่านี้ถูกนำไปใช้ทำจุดสำคัญต่าง ๆ บน Box Plot เป็นกล่องและหนวดนั่นเอง ดังภาพด้านล่าง ซึ่งมีข้อสังเกตว่า หากเราลองมาใช้ตัวเลข 5 ตัวนี้ แปลผล Box Plot เบื้องต้นกัน เราจะได้ข้อสังเกตหลาย ๆ อย่างได้ไม่ด้อยไปกว่า (หรือในบางมิติ เหนือกว่า) Histogram เช่น ท่านที่ช่างสังเกตจะพบว่ามีตำแหน่งสำคัญที่ผมยังไม่ได้อธิบายใน Box Plot คือตัวเลข 44 บนหนวด Whisker ข้างซ้าย และสิ่งที่น่าสงสัยอีกประการหนึ่งคือ เหตุใดค่า 80 ที่เป็น Maximum จึงไปอยู่บนปลายหนวดข้างขวาพอดี? เป็นความบังเอิญหรือไม่? ข้อสังเกต เหล่านี้สามารถถูกอธิบายได้ว่า จริง ๆ แล้ว จาก Five-Number Summary เราจะต้องมีการคำนวณปริมาณทางสถิติเพิ่มบางประการ กล่าวคือ: เราเอาค่า IQR มาคำนวณค่า​ปลายหนวดทั้งสองข้าง ดังนี้: เสมือนว่าเป็นการ “ขยาย” ตัวกล่องออกไปด้านข้างด้วยความกว้าง 1.5 เท่าของกล่อง แต่ขยายไม่เกินข้อมูลสูงสุดหรือข้อมูลต่ำสุดที่มีอยู่จริง ซึ่งกฎ 1.5 * IQR ได้รับการยอมรับอย่างแพร่หลาย โดยนิยามข้อมูลที่อยู่นอกช่วง [Q1 – 1.5 * IQR, Q3 + 1.5 * IQR] ได้ว่าเป็น ค่าสุดโต่ง หรือ Outliers (คือค่าเหล่านี้ นับว่าหายากมาก ๆ) ยกตัวอย่างเช่น ถ้าข้อมูลมีการกระจายตัวแบบปกติ (Normal Distribution) ข้อมูลที่อยู่นอกช่วง Lower Whisker และ Upper Whisker จะมีเพียง 0.7% เท่านั้น จึงถูกจัดเป็น Outliers เราจะเห็นได้ว่าแผนภาพ Box Plot ถึงแม้จะมีขนาดเล็กมากเมื่อเทียบกับ Histogram แต่ให้ข้อมูลและข้อสังเกตได้น่าสนใจหลายประการ ไม่ว่าจะเป็นลักษณะการกระจายตัว เช่น ข้อมูลเบ้ซ้ายหรือเบ้ขวา, ค่ากลางของข้อมูล, ช่วงของข้อมูลส่วนใหญ่, ช่วงของข้อมูลเกือบทั้งหมด, และค่าสุดโต่ง ซึ่งข้อสังเกตหลายข้ออาจสังเกตได้ง่ายกว่า Histogram ไม่ว่าจะเป็นค่ากลางมัธยฐาน, ค่าสุดโต่ง, ช่วงของข้อมูลส่วนใหญ่ เพราะมีตำแหน่งสำคัญต่าง ๆ ที่ถูกคำนวณและถูกกำกับอยู่ในแผนภาพอย่างชัดเจน หากท่านผู้อ่านได้อ่านมาถึงจุดนี้แล้วเริ่มรู้สึกหลงรัก Box Plot ผมขอเสนอเหตุผลอีกสองข้อที่จะทำให้ Box Plot น่าใช้งานมากขึ้นไปอีก เรามาดูข้อถัดไปกันเลยครับ เหตุผลข้อ 3: Box Plot ยืดหยุ่นในการนำเสนอ เนื่องจาก Box Plot เป็นแผนภาพ 1D ทำให้มีความยืดหยุ่นและสามารถถูกนำเสนอในรูปแบบแนวนอนหรือแนวตั้งก็ได้ ผมได้แสดงตัวอย่าง Box Plot ในแนวนอนด้านบนแล้ว เรามาดูตัวอย่างการนำเสนอ Box Plot ในแนวตั้ง ซึ่งผมจะนำเสนอพร้อมกับเหตุผลข้อสุดท้ายครับ...
7 September 2022
มารู้จักกับคลังข้อมูล (Data Warehouse) แหล่งข้อมูลในการทำ Business Intelligence
โดยปกติฐานข้อมูลจะถูกแบ่งเป็นแบบสัมพันธ์ (SQL) หรือ NoSQL และแบบธุรกรรม (OLTP) แบบเชิงวิเคราะห์ (OLAP) หรือแบบผสม (HTAP) ซึ่งถ้าเทียบกับเมื่อก่อนแล้วนั้นฐานข้อมูลของแผนกและฐานข้อมูลที่ทำขึ้นเพื่อจุดประสงค์พิเศษมีการปรับปรุงให้ดีขึ้นอย่างมากในทางธุรกิจ ความพยายามสร้างฐานข้อมูลที่รวมเป็นหนึ่งเดียวกันสำหรับข้อมูลทั้งหมดทั่วบริษัทถูกจัดให้เป็นระบบทะเลสาบข้อมูล (Data Lakes) หากข้อมูลถูกทิ้งไว้ในรูปแบบเดิม และถูกจัดให้เป็นคลังข้อมูล ( Data Warehouse ) หากข้อมูลถูกเปลี่ยนไปสู่รูปแบบและเค้าร่างที่เหมือนกัน ข้อมูลส่วนย่อยของคลังข้อมูลเรียกว่าตลาดข้อมูล (Data Mart) ความหมายของคลังข้อมูล (Data Warehouse) โดยพื้นฐานแล้ว คลังข้อมูลคือฐานข้อมูลเชิงวิเคราะห์ ที่มักจะเป็นการวิเคราะห์แบบสัมพันธ์ที่สร้างมาจากแหล่งข้อมูลสองแห่งหรือมากกว่านั้นก็ได้ ซึ่งถูกสร้างขึ้นมาเพื่อเก็บข้อมูลย้อนหลังซึ่งอาจมีระดับเป็นหน่วยเพตะไบต์ คลังข้อมูลมักจะมีระบบประมวลผลและหน่วยความจำที่สำคัญ เพื่อใช้ในการสืบค้นที่มีความซับซ้อนและการสร้างรายงาน ซึ่งคลังข้อมูลเหล่านี้มักจะเป็นแหล่งข้อมูลสำคัญในการทำ Business Intelligence และ Machine Learning ทำไมถึงใช้คลังข้อมูล? สาเหตุสำคัญที่บริษัทใช้คลังข้อมูลระดับองค์กรหรือ Enterprise Data Warehouse (EDW) คือการที่ฐานข้อมูลที่ใช้ปฏิบัติการของคุณ (OLTP) สามารถจำกัดจำนวนและประเภทของดัชนีที่คุณสามารถสร้างได้ จึงทำให้การสืบค้นเชิงวิเคราะห์ช้าลง และเมื่อคุณคัดลอกข้อมูลเข้าสู่คลังข้อมูล คุณก็สามารถตั้งค่าดัชนีที่คุณต้องการได้ เพื่อให้คุณสามารถวิเคราะห์ข้อมูลได้ดียิ่งขึ้น โดยไม่ส่งผลกระทบต่อประสิทธิภาพการเขียนของฐานข้อมูล OLTP และอีกเหตุผลหนึ่งที่บริษัทต้องมีคลังข้อมูล ก็เพื่อให้บริษัทสามารถรวบรวมข้อมูลจากหลายแหล่งมาทำการวิเคราะห์ได้ ตัวอย่างเช่น การใช้งาน OLTP ยอดขายของคุณอาจไม่จำเป็นต้องรู้เรื่องสภาพอากาศในสถานที่ค้าขายของคุณ แต่ในทางกลับกันสิ่งที่จะได้ประโยชน์จากข้อมูลเหล่านี้คือการคาดการณ์ยอดขาย เพราะถ้าคุณเพิ่มข้อมูลสภาพอากาศย้อนหลังเข้าไปในคลังข้อมูล มันก็จะเป็นเรื่องง่ายที่จะนำข้อมูลมารวมกับโมเดลข้อมูลของยอดขายในหลายปีที่ผ่านมา คลังข้อมูลเมื่อเทียบกับ Data Lake หรือระบบทะเลสาบข้อมูล Data Lake หรือระบบทะเลสาบข้อมูลที่ใช้เก็บไฟล์ข้อมูลในรูปแบบดั้งเดิมนั้น โดยพื้นฐานแล้วคือ “Schema on Read” หมายความว่าโปรแกรมใด ๆ ที่อ่านข้อมูลจาก Data Lake จะต้องกำหนดประเภทและความสัมพันธ์ของมันเองกับข้อมูล ในทางกลับกันคลังข้อมูลคือ “Schema on Write” หมายความว่าประเภท ดัชนี และความสำพันธ์ของข้อมูลถูกกำหนดไว้กับข้อมูลขณะที่ถูกจัดเก็บใน EDW “Schema on Read” เหมาะสำหรับข้อมูลที่อาจถูกนำไปใช้ในหลากหลายบริบท และมีความเสี่ยงในการสูญเสียข้อมูลน้อย แต่ทว่ามีข้ออันตรายก็คือ ข้อมูลนั้นอาจไม่ถูกใช้งานเลย (Qubole ผู้ค้าขายเครื่องมือคลังข้อมูลแบบ Cloud สำหรับ Data Lake คาดคะเนว่า 90% ของข้อมูลใน Data Lake นั้นไม่ถูกนำมาใช้งาน) ส่วน “Schema on write” เหมาะสำหรับข้อมูลที่มีจุดประสงค์เฉพาะอย่าง และเหมาะสำหรับข้อมูลที่ต้องเกี่ยวพันอย่างเหมาะสมกับข้อมูลจากแหล่งอื่น แต่ก็มีข้อควรระวังคือ ข้อมูลที่ผิดรูปแบบอาจถูกทิ้งขณะนำเข้าเพราะมันไม่ได้เปลี่ยนรูปแบบให้เหมาะสมต่อประเภทข้อมูลที่ต้องการ คลังข้อมูลเมื่อเทียบกับตลาดข้อมูล (Data Warehouse vs Data Mart) คลังข้อมูลประกอบด้วยข้อมูลระดับบริษัท ในขณะที่ตลาดข้อมูลประกอบด้วยข้อมูลที่มุ่งเน้นเฉพาะสายงานธุรกิจ ตลาดข้อมูลอาจมีหลายรูปแบบไม่ว่าจะเป็นแบบที่ขึ้นอยู่กับคลังข้อมูล แบบไม่ขึ้นอยู่กับคลังข้อมูล หรือแบบที่ผสมผสานทั้งสอบที่กล่าวไปข้างต้น ตลาดข้อมูลถูกสร้างขึ้นมาเพราะมันมีข้อดีหลายประการ ไม่ว่าจเป็น การใช้พื้นที่น้อยลง ให้ผลลัพธ์เร็วขึ้น และมีค่าใช้จ่ายในการดำเนินการน้อยกว่าคลังข้อมูลแบบเต็ม ตลาดข้อมูลจึงมักจะประกอบไปด้วยข้อมูลที่ถูกสรุปและคัดสรรไว้แล้ว แทนที่จะเป็นข้อมูลรายละเอียดอื่น ๆ ที่มีอยู่ในคลังข้อมูล สถาปัตยกรรมคลังข้อมูล โดยทั่วไป คลังข้อมูลมีสถาปัตยกรรมหลายระดับ ได้แก่ ข้อมูลเดิม ฐานข้อมูลสำหรับเป็นที่พักข้อมูล เครื่องมือ ETL (Extract (ดึง), Transform (เปลี่ยนรูปแบบ), and Load (ถ่ายเท)) หรือ ELT (Extract, Load, and Transform) ซึ่งการจัดเก็บข้อมูลอย่างเหมาะสมและเครื่องมือนำเสนอข้อมูล แต่ละระดับมีจุดประสงค์ต่างกัน ข้อมูลเดิมมักรวมไปถึงฐานข้อมูลการปฏิบัติงานจากยอดขาย การตลาด และส่วนอื่น ๆ ของธุรกิจ และยังอาจรวมถึงโซเชียลมีเดียและข้อมูลภายนอก เช่น แบบสำรวจและสถิติประชากร ระดับที่พักข้อมูลจัดเก็บข้อมูลที่ดึงมาจากแหล่งข้อมูล ถ้าแหล่งข้อมูลไม่มีโครงสร้าง เช่น ข้อความโซเชียลมีเดีย ก็จะต้องมีการกำหนดโครงสร้างขึ้นมา รวมถึงมีการตรวจคุณภาพและการนำไปใช้งานด้วย ทั้งนี้เพื่อกำจัดข้อมูลที่มีคุณภาพต่ำและแก้ไขความผิดพลาดทั่วไป โดยเครื่อง ETL จะดึงข้อมูล ดำเนินการทำแผนที่และการเปลี่ยนรูปแบบที่ต้องการ และถ่ายเทข้อมูลเข้าสู่ระดับการจัดเก็บข้อมูล  เครื่องมือ ELT จัดเก็บข้อมูลก่อนแล้วเปลี่ยนรูปแบบในภายหลัง เมื่อคุณใช้เครื่องมือ ELT คุณอาจใช้ Data Lake ด้วยและข้ามขั้นตอนที่พักข้อมูลแบบเดิมไป ระดับจัดเก็บข้อมูลของคลังข้อมูลประกอบด้วยข้อมูลที่สะอาดและเปลี่ยนรูปแบบแล้วซึ่งพร้อมสำหรับการวิเคราะห์ โดยการจัดเก็บข้อมูลแบบนี้เป็นการจัดเก็บข้อมูลเชิงสัมพันธ์แบบเน้นเป็นแถว แต่ก็อาจมีการเน้นแบบคอลัมน์ด้วยหรือมีดัชนีแบบ Inverted-list สำหรับการค้นหาข้อความเต็ม โดยคลังข้อมูลมักจะมีดัชนีมากกว่าการจัดเก็บข้อมูลในการดำเนินงาน เพื่อให้สามารถวิเคราะห์ข้อมูลได้เร็วขึ้น การนำเสนอข้อมูลจากคลังข้อมูลมักทำโดยการดำเนินการคิวรี SQL ซึ่งอาจใช้เครื่องมือ GUI มาเป็นตัวช่วยในการสร้างได้ นอกจากนี้คิวรี SQL ยังสามารถใช้สร้างตารางการแสดงผล แผนภูมิ Dashboard รายงาน และการคาดการณ์ได้ โดยใช้เครื่องมือ BI เข้ามาช่วย เมื่อไม่นานมานี้ คลังข้อมูลเริ่มมีการรองรับ ML ที่จะปรับปรุงคุณภาพของโมเดลและการคาดการณ์ ตัวอย่างเช่น Google BigQuery ได้เพิ่มประโยคคำสั่ง SQL เพื่อรองรับโมเดลการวิเคราะห์การถดถอยเชิงเส้นและโมเดลการวิเคราะห์การถดถอยโลจีสติกไบนารีสำหรับการแบ่งประเภท นอกจากนี้คลังข้อมูลบางแห่งมีการผสานเข้าด้วยกันกับเครื่องมือ Deep Learning Libraries และ Automated ML อีกด้วย คลังข้อมูลแบบ Cloud เมื่อเทียบกับคลังข้อมูลแบบติดตั้งภายใน (On Premise) คลังข้อมูลสามารถถูกนำมาใช้ได้หลาย ไม่ว่าจะเป็นแบบติดตั้งภายใน แบบ Cloud หรือแบบผสม ที่ผ่านมาคลังข้อมูลส่วนใหญ่มักเป็นแบบติดตั้งภายใน (On-Prem Data Warehouse) แต่ก็มีปัญหาในเรื่องต้นทุนค่าลงทุนและการขาดความสามารถในการปรับขนาดได้ของเซิร์ฟเวอร์ที่ติดตั้งภายในศูนย์ข้อมูล การติดตั้ง EDW เริ่มเป็นที่นิยมมากขึ้นเมื่อผู้ค้าขายเริ่มให้บริการเครื่องมือคลังข้อมูล แต่อย่างไรก็ตาม ยังคงมีหลายบริษัทที่มีแนวโน้มที่จะย้ายคลังข้อมูลทั้งหมดหรือบางส่วนเข้าสู้ระบบ Cloud เพื่อต้องการใช้ประโยชน์จาก EDW แบบ Cloud ที่สามารถปรับขนาดได้ รวมถึงสามารถเชื่อมต่อกับบริการ Cloud อื่น ๆ ได้อย่างง่ายดาย ข้อเสียของการใช้ข้อมูลหลายเพตะไบต์เข้าไปในระบบ Cloud คือค่าใช้จ่ายในการใช้งาน ทั้งสำหรับการจัดเก็บข้อมูลแบบ Cloud และสำหรับการประมวลผลคลังข้อมูลแบบ Cloud และหน่วยความจำ คุณอาจจะคิดว่าปัญหาหลักของการอัปโหลดข้อมูลหลายเพตะไบต์เข้าสู่ระบบ Cloud คือระยะเวลาในการอัปโหลด แต่ในปัจจุบันผู้ค้าขายระบบ Cloud แบบไฮเปอร์สเกลมีการโอนถ่ายข้อมูลแบบดิสก์ซึ่งมีศักยภาพสูง คลังข้อมูลแบบบนลงล่างเมื่อเทียบกับแบบล่างขึ้นบน มีแนวความคิดใหญ่ ๆ สองแนวเกี่ยวกับวิธีออกแบบคลังข้อมูล ความแตกต่างระหว่างสองแนวนี้เกี่ยวข้องกับทิศทางการหลั่งไหลของข้อมูลระหว่างคลังข้อมูลกับตลาดข้อมูล โดยปกติ การใช้งาน EDW ในส่วนงานด้านการประกันและการผลิต มักจะชอบวิธีการของแบบบนลงล่าง ส่วนส่วนงานด้านการตลาดมักจะชอบวิธีของคิมบัลล์ ระบบทะเลสาบข้อมูล ตลาดข้อมูล หรือคลังข้อมูล องค์กรของคุณควรเลือกแบบใด? สุดท้ายแล้ว การตัดสินใจทุกอย่างที่เกี่ยวข้องกับคลังข้อมูลของบริษัทขึ้นอยู่กับเป้าหมาย ทรัพยากร และงบประมาณของบริษัท คำถามแรกคือคุณจำเป็นต้องมีคลังข้อมูลหรือไม่ ถ้าสมมุติว่าต้องการ งานต่อไปคือการระบุแหล่งข้อมูลของคุณ ขนาด อัตราการเติบโตปัจจุบัน และสิ่งที่คุณกำลังทำอยู่เพื่อใช้งานและวิเคราะห์ข้อมูลเหล่านั้น หลังจากนั้นคุณสามารถเริ่มทดลองกับระบบทะเลสาบข้อมูล ตลาดข้อมูล และคลังข้อมูลเพื่อดูว่าอันไหนใช้ได้ดีกับองค์กรของคุณ ผู้เขียนแนะนำให้ทำการทดสอบความเป็นไปได้ด้วยข้อมูลเซตย่อยขนาดเล็ก โฮสต์ในระบบฮาร์ดแวร์ที่มีอยู่ภายในองค์กรหรือในการติดตั้งระบบ Cloud...
5 September 2022
การแก้ปัญหาข้อมูลที่ไม่มีโครงสร้างด้วย NLP และโมเดลภาษาหนึ่งในกลยุทธ์ AI ขององค์กร
ในบทความแขกรับเชิญพิเศษนี้ ประภท สุนการะ (Prabhod Sunkara) ผู้ร่วมก่อตั้งและ COO ของบริษัท nRoad, Inc. ได้พูดถึงเรื่องของการที่องค์กรต่าง ๆ พึ่งพาข้อมูลที่ไม่มีโครงสร้างมากขึ้นเพื่อจุดประสงค์ในการวิเคราะห์ กำกับดูแล และทำการตัดสินใจในระดับองค์กร โดย nRoad เป็นแพลตฟอร์มที่สร้างมาเพื่อการประมวลผลภาษาธรรมชาติ (NLP) สำหรับข้อมูลที่ไม่มีโครงสร้างในส่วนการบริการทางด้านการเงินและเป็นบริษัทแรกที่ประกาศ “สงครามกับการทำงานแบบใช้เอกสาร”  ก่อนจะมี nRoad ประภทดำรงตำแหน่งผู้นำหลากหลายตำแหน่งในด้านการพัฒนาผลิตภัณฑ์ การปฏิบัติการ และ Solution Architecture (ตำแหน่งงานที่หาทางออกของปัญหาต่าง ๆ)  เขามี Passion ในการสร้าง AI Solutions ที่เน้นผลลัพธ์ ซึ่งเขาก็ได้ประสบความสำเร็จในการปรับปรุงกระบวนการต่าง ๆ ของบริษัทการเงินระดับโลกมากมายเช่น Bank of America, Merrill Lynch, Morgan Stanley และ UBS ข้อมูลที่ไม่มีโครงสร้างหรือ Unstructured Data คือ ข้อมูลเชิงลึกที่มีอยู่แพร่หลายในทั่วทุกองค์กร แต่ข้อมูลเหล่านั้นไม่โปร่งใสหรือไม่สามารถใช้งานได้เสมอไป เรื่องนี้จึงยังคงเป็นความท้าทายสำคัญด้านธุรกิจ  ข้อมูลที่ไม่มีการออกแบบฐานข้อมูลไว้ล่วงหน้ามักจะถือว่าเป็นข้อมูลที่ไม่มีโครงสร้าง ซึ่งได้แก่เอกสารและเว็บไซต์ที่เต็มไปด้วยตัวหนังสือตลอดจนไฟล์ภาพ, วิดีโอ, Chatbot, Audio Streaming และโพสต์โซเชียลมีเดีย โดยข้อมูลที่ไม่มีโครงสร้างเหล่านี้มีจำนวนมากถึง 80 ถึง 90 เปอร์เซ็นต์ของข้อมูลที่อยู่ในโลกดิจิทัลทั้งหมด การเติบโตและความท้าทายของข้อมูลที่ไม่มีโครงสร้าง จากการวิจัยของบริษัท ITC พบว่า จำนวนข้อมูลที่ไม่มีโครงสร้างนั้นคาดว่าจะเติบโตจาก 33 เซตตะไบต์ในปี 2018 เป็น 175 เซตตะไบต์ หรือ 175 พันล้านเทระไบต์ภายในปี 2025 แต่ยังโชคดีที่ในองค์การเริ่มมีการตระหนักถึงการเติบโตอย่างรวดเร็วของข้อมูลที่ไม่มีโครงสร้าง ตัวอย่างเช่น ในการวิจัยไม่นานมานี้เผยว่าเกือบ 80 เปอร์เซ็นต์ขององค์กรบริการด้านการเงินกำลังประสบกับการที่ข้อมูลที่ไม่มีโครงสร้างเพิ่มขึ้นอย่างรวดเร็ว ยิ่งไปกว่านั้น ผู้วิจัยส่วนใหญ่ในการวิจัยนี้ระบุว่า ข้อมูลปัจจุบันในองค์กรเป็นข้อมูลที่ไม่มีโครงสร้างมากถึง 50 ถึง 90 เปอร์เซ็นต์ด้วยกัน เมื่อก่อนคอมพิวเตอร์ไม่สามารถเข้าใจข้อมูลประเภทนี้ได้ แต่เนื่องจากในปัจจุบันที่องค์กรต่าง ๆ ต้องพึ่งพาข้อมูลที่ไม่มีโครงสร้างมากขึ้นในการวิเคราะห์ กำกับดูแล และการตัดสินใจทางธุรกิจ ข้อมูลที่ไม่มีโครงสร้างจึงมีความสำคัญมากขึ้น ทำให้ทีม Technology & Data ต่างแข่งกันอัปเกรดและปรับปรุงโครงสร้างพื้นฐานของตน เพื่อให้สอดคล้องกับบริการแบบคลาวด์ที่เติบโตขึ้นและข้อมูลจากทั้งภายในและภายนอกองค์กรที่เพิ่มขึ้นอย่างรวดเร็ว ขณะเดียวกัน ทีมเหล่านี้ก็กำลังสนใจในเรื่องของการใช้งานข้อมูลเชิงลึก (Insights) ที่ฝังอยู่ในแหล่งข้อมูลที่ไม่มีโครงสร้าง โดยกรณีการใช้งานจะมีตั้งแต่การเพิ่มประสิทธิภาพในการปฏิบัติการไปจนถึงการเตรียมพร้อมรับมือกับการบริการลูกค้าปลายทาง ผลก็คือทั้ง CIO และ CDO ต่างก็ประเมินผลหรือนำวิธีการแก้ไขไปใช้งาน โดยมีตั้งแต่วิธีง่าย ๆ แบบ OCR Plus ไปจนถึงโมเดลภาษาขนาดใหญ่ที่ซับซ้อนควบคู่กับเครื่องจักรหรือเทคนิคการเรียนรู้เชิงลึก การร่วมใช้ NLP และโมเดลภาษาในกลยุทธ์ข้อมูลของคุณ ข้อมูลที่ไม่มีโครงสร้างจำนวนมากของบริษัทจะอยู่ในรูปแบบตัวหนังสือ ตัวอย่างเช่นสัญญาทางกฎหมาย เอกสารงานวิจัย คำติชมของลูกค้าจาก Chatbot และทุกอย่างที่อยู่ในรูปแบบของตัวหนังสือ ซึ่งโดยปกติแล้ว องค์กรจะประยุกต์ใช้การประมวลผลภาษาธรรมชาติ (NLP) มาเป็นส่วนหนึ่งของกลยุทธ์ AI และการเปลี่ยนองค์กรมาเป็นองค์กรดิจิทัล (ลองดูตัวอย่างการใช้ประยุกต์ใช้ Data Science กับการวิเคราะห์ข้อมูลเอกสารงานวิจัยที่นี่) ตลอดสิบปีที่ผ่านมา NLP มีงานวิจัยและการพัฒนาอย่างต่อเนื่อง เรื่องที่โดดเด่นที่สุดก็คือ เรื่องวิวัฒนาการของ Transformer Model ซึ่งช่วยให้องค์กรสามารถก้าวผ่านการวิเคราะห์ Keyword แบบง่าย ๆ ไปเป็นการวิเคราะห์ขั้นสูงอย่าง Sentiment Analysis (กระบวนการวิเคราะห์อารมณ์) และ Semantic Analysis (การวิเคราะห์ทางความหมาย) แม้ว่า NLP จะสามารถทำให้เครื่องจักรระบุจำนวนและเข้าใจแก่นแท้ของข้อความได้ แต่ก็ยังมีความท้าทายในเรื่องของการเข้าใจข้อความที่กำกวม  วิธีการที่จะรับมือกับข้อความกำกวมเหล่านี้ได้ก็คือการรวมความรู้และบริบทของโดเมนเข้าด้วยกันเป็นโมเดลภาษา โดยการใช้งานโมเดลที่ปรับปรุงอย่างดีแล้ว เช่น LegalBERT, SciBERT, FinBERT ฯลฯ ทั้งนี้ก็จะช่วยให้เริ่มต้นวิเคราะห์ข้อมูลได้ง่ายขึ้นสำหรับกรณีหากต้องการใช้งานแบบเฉพาะเจาะจง ตอนเริ่มแรกโมเดลที่ปรับปรุงอย่างดีแล้วจะมีฐานข้อมูลที่มั่นคง เช่นเดียวกับโมเดลที่ใหญ่ เช่น BERT และ GPT3 แต่อย่างไรก็ตามโมเดลเหล่านี้ยังคงไม่ตอบโจทย์หรือความต้องการของธุรกิจส่วนใหญ่ได้  ด้วยเหตุผลนี้เองธุรกิจที่ดำเนินการในหลายตลาด หลายภูมิภาค และหลายภาษาควรพิจารณาการใช้งานโมเดลภาษาข้ามโดเมน โมเดลหลายภาษา และ/หรือเทคนิคการโอนย้ายการเรียนรู้ (Transfer Learning) เพื่อรับมือกับความท้าทายได้ดียิ่งขึ้น แม้ว่าจะมีการวิจัยและพัฒนา Language Model Architectures ที่ดีขึ้นและครอบคลุมมากขึ้น แต่ทุกวันนี้ก็ยังไม่มี Solution ที่ใช้ได้กับทุกสิ่ง ด้วยเหตุผลนี้เองทำให้องค์กรที่พยายามสร้างโมเดลภาษาของตนก็ไม่สามารถทำได้ นอกจากนี้ยังมีปัจจัยอื่น ๆ ที่ส่งผลกระทบต่อกลยุทธ์ข้อมูลที่ไม่มีโครงสร้างขององค์กรอีก เช่น การขาดข้อมูลอธิบายประกอบ (Annotated Data) ไม่มีการอบรมเกี่ยวกับเรื่อง Data การที่องค์กรขาดความเข้าใจในการประยุกต์ใช้โมเดล และความที่องค์กรอยากจะรีบพัฒนาและอยากใช้งานอุปกรณ์อย่างรวดเร็วแต่ไม่มีทุนการทำ รวมถึงอยากรีบได้ผลตอบแทนคืนจากการลงทุนอีกด้วย วิธีที่องค์กรสามารถรับมือกับปัญหาข้อมูลที่ไม่มีโครงสร้างที่เพิ่มขึ้นได้ การนำข้อมูลมาใช้ขับเคลื่อนองค์กร (Data Strategy) และเทคโนโลยีมีบทบาทสำคัญในแผนกลยุทธ์ AI ทั่วไปขององค์กร  องค์กรส่วนใหญ่สามารถวางแผนและจัดการกับข้อมูลที่ไม่มีโครงสร้างได้อย่างมีประสิทธิภาพ แต่ทว่าข้อมูลเชิงลึกนั้นฝังอยู่ในข้อมูลที่ไม่มีโครงสร้าง และองค์กรต่างก็งมหาอยู่ในข้อมูลนี้ CDO ขององค์กรจึงจำเป็นต้องพิจารณาข้อมูลนี้และวางแผนอย่างชาญฉลาดเพื่อใช้ประโยชน์จากข้อมูลนี้ ความท้าทายที่ยากที่สุดที่มักพบได้คือการขาดความสอดคล้องเชิงองค์กรกับกลยุทธ์ AI ขององค์กร แม้ว่าจะไม่เกี่ยวข้องโดยตรงกับโมเดล ML (Machine Learning) และ DL (Deep Learning), ความสอดคล้องกับผู้นำ, ความเข้าใจถ่องแท้เรื่องข้อมูลและผลลัพธ์, และการรวมทีมที่หลากหลาย ทั้งหมดนี้ล้วนจำเป็นอย่างยิ่งสำหรับกลยุทธ์ AI ในองค์กร เพราะวิธีที่ระบุจำนวนได้และเน้นผลลัพธ์ช่วยให้ทีมมุ่งเน้นที่เป้าหมายปลายทางเมื่อเทียบกับโมเดล AI ที่เน้นโฆษณาชวนเชื่อ ตัวอย่างเช่น GPT3 ที่เป็นโมเดลคาดการณ์ภาษาขนาดใหญ่ที่มักจะคาดการณ์ไม่ค่อยถูกต้อง ซึ่งมีหลายกรณีที่มีการเผยแพร่ข้อมูลผิด ๆ เพราะใช้โมเดล GPT3 ซึ่งอาจทำให้องค์กรเสียชื่อเสียงได้ การอบรมและเรียนรู้เชิงลึกในการแก้ไขปัญหานั้นมักมีต้นทุนสูงและแอปพลิเคชันที่ต้องใช้เทคนิคที่เน้น NLP นั้นจำเป็นต้องมีแหล่งช่วยคำนวณที่ใช้โดเมนจำนวนมาก เพราะฉะนั้นเมื่อมีการเริ่มทีม AI ภายในองค์กร องค์กรจะต้องเน้นในเรื่องของการกำหนดปัญหาและผลลัพธ์ที่วัดได้ นอกจากการกำหนดปัญหาแล้ว ทีมผลิตภัณฑ์ต้องโฟกัสที่ความหลากหลาย ความซับซ้อน และความพร้อมใช้งานของข้อมูล ขั้นตอนเหล่านี้จะช่วยวางแผนกลวิธี ระบุโมเดลพื้นฐานที่เหมาะสม และสร้างการกำกับดูแลข้อมูลและการอบรมในเรื่องของฟังก์ชันการใช้งานที่ดี อีกวิธีหนึ่งที่ช่วยประหยัดค่าใช้จ่ายได้ คือ การเลือกพาร์ทเนอร์ที่เป็นบุคคลภายนอกหรือผู้ที่ให้บริการทางด้านนี้มาช่วยเริ่มกลยุทธ์ของคุณ  เทคโนโลยีของผู้ให้บริการช่วยให้องค์กรได้ใช้ประโยชน์จากความเชี่ยวชาญในการปฏิบัติงานและการดำเนินการที่ดีที่สุดในโมเดลภาษาที่ใหญ่กว่า  ตลอดจนประสบการณ์มากมายที่พวกเขาเคยรับมือกับปัญหาอื่น ๆ ที่เคยเกิดขึ้นมาแล้ว การร่วมใช้กลยุทธ์เพื่อจัดการกับปัญหาข้อมูลที่ไม่มีโครงสร้างขององค์กรและการใช้ประโยชน์จาก เทคนิค NLP กลายเป็นองค์ประกอบสำคัญของการขับเคลื่อนองค์กรด้วยข้อมูลและเทคโนโลยีที่ใช้ในองค์กร  แม้ว่าโมเดล RPA, OCR Plus, หรือโมเดล ML สถิติขั้นพื้นฐาน (Basic Statistical-based ML) จะไม่สามารถแก้ปัญหาทั้งหมดได้ แต่การใช้วิธีการเรียนรู้เชิงลึกก็จะเป็นแนวทางในการจัดการกับปัญหาข้อมูลที่ไม่มีโครงสร้างขององค์กรต่อไป บทความโดย InsideData Editorial Teamเนื้อหาจากบทความของ InsideBigdataแปลและเรียบเรียงโดย ไอสวรรค์ ไชยชะนะตรวจทานและปรับปรุงโดย ปพจน์ ธรรมเจริญพร
2 July 2022
เฟ้นหาวิธีการสร้างสุดยอดทีมในองค์กรด้วย Data
มาเรียนรู้วิธีการสร้างทีมงานภายในองค์กรของคุณเอง ให้มีประสิทธิภาพสูงสุด ด้วย Data-Driven Approach จากงานวิจัยของ Google
13 May 2021
เล่นกับ Big Data ภาษาไทย ต้องเข้าใจ Unicode, Part 2
มาทำความรู้จักกับ Unicode และวิธี “เล่น” กับ Unicode text ในสถานการณ์จริงต่าง ๆ ใน Python เพื่อเป็นพื้นฐานในการวิเคราะห์ Big Data ภาษาไทย
15 June 2020
เล่นกับ Big Data ภาษาไทย ต้องเข้าใจ Unicode, Part 1
มาทำความรู้จักกับ Unicode และวิธี “เล่น” กับ Unicode text ในสถานการณ์จริงต่าง ๆ ใน Python เพื่อเป็นพื้นฐานในการวิเคราะห์ Big Data ภาษาไทย
30 May 2020
ฝ่าวิกฤติโควิด-19 จากบทเรียนในอดีต : ไข้หวัดใหญ่สเปน (1918 Spanish Flu)
ในขณะที่โลกของเรากำลังเผชิญกับวิกฤติโคโรนาไวรัส (โควิด-19) นั้น ทราบหรือไม่ว่า เมื่อประมาณ 100 ปีก่อน โลกของเราเคยเผชิญกับการระบาดของโรคไข้หวัดใหญ่สเปน (Spanish Flu) ซึ่งเป็นโรคไข้หวัดใหญ่สายพันธุ์หนึ่งที่มีความร้ายแรงมาก และก่อให้เกิดการระบาดไปทั่วโลก (pandemic) เหมือนกับการระบาดของโควิด-19 ที่กำลังเกิดขึ้นในช่วงชีวิตของเราทุกคน โรคไข้หวัดใหญ่สเปนนี้ ร้ายแรงถึงขั้นที่ทำให้มีผู้ติดเชื้อทั่วโลกมากถึง 500 ล้านรายโดยประมาณ หรือ 1 ใน 3 ของประชากรโลกในขณะนั้น มีผู้เสียชีวิตมากกว่า 50 ล้านราย แม้กระทั่งประเทศใหญ่อย่างสหรัฐอเมริกาก็ยังมีผู้เสียชีวิตกว่า 675,000 ราย เป็นไปได้ไหม ที่เราจะเรียนรู้อะไรบางอย่างจากเหตุการณ์การระบาดอันร้ายแรงของไข้หวัดใหญ่สเปน ในปี ค.ศ. 1918 เพื่อให้เราฝ่าวิกฤติโควิด-19 นี้ไปได้โดยให้ประชาชนทุกคนได้แคล้วคลาดปลอดภัย ลดอัตราการเสียชีวิตให้ได้มากที่สุด? ในบทความนี้ เราจะตอบโจทย์ดังกล่าวโดยใช้ข้อมูลที่เมืองต่าง ๆ ในประเทศสหรัฐอเมริกา ได้มีการเก็บข้อมูลการแก้ปัญหาวิกฤติโรคระบาดนี้ ควบคู่กับปริมาณผู้เสียชีวิตในยุคนั้น เพื่อนำบทเรียนดังกล่าวมาประยุกต์ใช้กับสถานการณ์ของเรากันครับ ผมเชื่อว่าบทเรียนที่เราจะได้รับจากการศึกษาไข้หวัดใหญ่สเปนนั้น สามารถประยุกต์ใช้กับสถานการณ์โควิด-19 ได้ เพราะโรคระบาดทั้งสองนี้ มีความคล้ายคลึงกันอย่างน้อยถึงสี่ประการด้วยกัน มาตรการภาครัฐกับการต่อสู้กับโรคระบาด เมื่อภาครัฐไม่มีเครื่องมือทางการแพทย์ที่สามารถระงับโรคระบาดนี้ได้ในระดับมหภาค (เช่น วัคซีน) ภาครัฐจึงต้องอาศัยเครื่องมือเชิงนโยบาย ซึ่งหัวใจหลักก็คือการสร้างระยะห่างทางสังคม (social distancing) ทั้งนี้ ยังมีตัวแปรสำคัญที่ต้องพิจารณา ที่จะส่งผลต่อความมีประสิทธิภาพในการต่อสู้กับโรคระบาดนี้ คือ ข้อมูลจากเมืองใหญ่ของสหรัฐอเมริกา 4 เมือง ที่ภาครัฐของเมืองเหล่านี้เลือกตอบโต้วิกฤติไข้หวัดใหญ่สเปนด้วยมาตรการการสร้างระยะห่างทางสังคม เราจะพบว่า เมืองที่เริ่มมาตรการการสร้างระยะห่างทางสังคมอย่างรวดเร็ว นานเพียงพอ และไม่ลดความรัดกุมของมาตรการก่อนเวลาอันเหมาะสม เป็นเมืองที่ประสบความสำเร็จในการลดอัตราการเสียชีวิตได้ดีที่สุด เมืองฟิลาเดลเฟีย เป็นเมืองที่พบผู้ติดเชื้อรายแรกในประเทศสหรัฐอเมริกา แต่กลับมองความรุนแรงของโรคนี้ว่ามีผลกระทบน้อย และยืนยันการจัดพาเหรดเฉลิมฉลองให้เหล่าทหารจากสงครามโลกครั้งที่หนึ่ง ใน 10 วันให้หลังหลังจากพบผู้ติดเชื้อ โดยมีผู้เข้าชมพาเหรดกว่า 200,000 คน จนกระทั่งมีจำนวนผู้เสียชีวิตจากไข้หวัดใหญ่สเปนเพิ่มสูงขึ้นจำนวนมาก จึงจะเริ่มมาตรการลดการแพร่เชื้อด้วยการสร้างระยะห่างทางสังคม เมืองฟิลาเดลเฟียจึงเป็นเมืองที่มีผู้เสียชีวิตมากที่สุดในช่วงเวลา 24 สัปดาห์แรกของการระบาด เมืองที่ประสบความสำเร็จในการลดจำนวนผู้เสียชีวิตรายสัปดาห์ได้สำเร็จ อย่างเมืองซานฟรานซิสโกหรือเมืองเซนต์หลุยส์ อาจพบกับกรณีของ “คลื่นลูกที่สอง” ที่มีการระบาดของโรคเพิ่มขึ้นอีกครั้ง เนื่องจากภาครัฐตัดสินใจลดความรัดกุมของมาตรการสร้างระยะห่างทางสังคมก่อนเวลาอันเหมาะสม สิ่งนี้อาจกำลังเกิดขึ้นในกรณีของโควิด-19 ในประเทศจีน ที่มีกรณีผู้ติดเชื้อโควิด-19 ใหม่เพิ่มขึ้น หลังจากที่คำสั่งปิดเมืองต่าง ๆ ได้เริ่มลดความรัดกุมลง เมืองนิวยอร์ก เป็นเมืองที่เริ่มมาตรการสร้างระยะห่างทางสังคมอย่างรวดเร็ว หลังจากที่พบผู้ติดเชื้อรายแรก ๆ ทำให้เป็นเมืองที่ประสบความสำเร็จในการลดการระบาดของโรคไข้หวัดใหญ่สเปนได้ที่ดีสุดเมืองหนึ่งในสหรัฐอเมริกา ด้วยจำนวนผู้เสียชีวิต 452 รายต่อประชากร 100,000 คน เรียกว่าช่วยชีวิตคนได้มากถึง 40% เมื่อเทียบกับเมืองฟิลาเดลเฟียที่มีจำนวนผู้เสียชีวิตถึง 748 รายต่อประชากร 100,000 คน ผู้อ่านสามารถศึกษาผลลัพธ์ของมาตรฐานภาครัฐในเมืองอื่น ๆ ของสหรัฐอเมริกาได้ที่บทความของ National Geographic ซึ่งให้ผลลัพธ์ในภาพรวมที่คล้ายคลึงกัน เมืองที่เริ่มมาตรการการสร้างระยะห่างทางสังคมอย่างรวดเร็ว นานเพียงพอ และไม่ลดความรัดกุมของมาตรการก่อนเวลาอันเหมาะสม เป็นเมืองที่ประสบความสำเร็จในการลดอัตราการเสียชีวิตได้ดีที่สุด บทสรุป จากกรณีศึกษาการระบาดของไข้หวัดใหญ่สเปน ค.ศ.1918 นั้น มาตรการภาครัฐเป็นเครื่องมือชิ้นสำคัญในการต่อสู้วิกฤติโรคระบาดในกรณีที่ยังไม่มีวัคซีนป้องกันโรค หัวใจหลักก็คือมาตรการการสร้างระยะห่างทางสังคม ซึ่งอาจได้ผลสัมฤทธิ์และประสิทธิภาพไม่เท่าเทียมกัน ขึ้นอยู่กับความรวดเร็วในการบังคับใช้เมื่อพบผู้ติดเชื้อรายแรก ๆ ระยะเวลาในการบังคับใช้ และความรัดกุมของมาตรการแม้พบจำนวนผู้ติดเชื้อที่เริ่มลดลง อย่างไรก็ดี ความร่วมมือของเราประชาชนทุกคนในมาตรการการสร้างระยะห่างทางสังคม ลดการเดินทาง ลดการไปสู่สถานที่ที่มีคนชุมนุมจำนวนมาก รักษาสุขอนามัยที่ดี เป็นปัจจัยสำคัญที่สุดที่จะช่วยชะลอการแพร่เชื้อของโควิด-19 นี้ ในระหว่างที่วัคซีนกำลังถูกค้นคว้าและวิจัยครับ
7 April 2020
งานวิจัยบ่งชี้ อาจมีผู้ติดเชื้อโควิด-19 มากกว่าที่รายงานอยู่หลายเท่าตัว
งานวิจัยล่าสุดจากสหรัฐอเมริกาได้มีข้อสรุปที่น่าเป็นห่วงว่า จำนวนผู้ติดเชื้อเราทราบกันว่ามีอยู่ทั่วโลกจากการนำเสนอข้อมูลผ่านแผนภาพตามสถานการณ์จริงหรือ dashboard นั้น อาจน้อยกว่าจำนวนผู้ติดเชื้อที่มีอยู่จริงในขณะนี้หลายเท่าตัว!
7 April 2020
PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings