Data Mining

Data Mining

ข่าวและบทความที่เกี่ยวข้อง

Related news and articles

PostType Filter En

บทความ

อะไรคือเหตุผลที่ควรเปลี่ยนจาก ให้ข้อมูลนำทางเป็น ให้การตัดสินใจนำทางแทน
กระแสต่าง ๆ ผลักดันให้เราต้องเป็นองค์กรที่ขับเคลื่อนด้วยข้อมูลจำนวนมหาศาล แต่เมื่อย้อนดูอัตราความล้มเหลวของโครงการกลับกระจายอยู่เต็มไปหมด และดูเหมือนว่าองค์กรเหล่านั้นถูกกดดันมากเกินไปจนอยู่ในระดับที่มีความเสี่ยงสูง หากเป็นเช่นนั้นแล้ว “ใคร” หรือ “อะไร” กันแน่ที่ควรจะเป็นตัวชี้นำเราในตอนนี้ ( การขับเคลื่อนด้วยข้อมูล ) ตอนนี้ผู้คนต่างรู้สึกว่าตนเองถูกต้องกันทั้งนั้นที่บอกว่าเราต้องเป็นองค์กรที่ขับเคลื่อนด้วยข้อมูล กระนั้นแล้วคุณควรวิเคราะห์ข้อมูลเพื่อเป็นแนวทางในการตัดสินใจทางธุรกิจใช่หรือไม่? หากเป็นเช่นนั้นถูกต้องแล้ว ทำไมเหล่านักวิเคราะห์ในวงอุตสาหกรรมจึงปักหมุดไปว่าโครงการวิเคราะห์ข้อมูลส่วนใหญ่ รวมถึงโครงการ AI ถึงถือว่าเป็นความล้มเหลวกันล่ะ? ผู้สังเกตการณ์ในอุตสาหกรรมกล่าวว่าสิ่งที่ตรงกันข้ามกันมันกำลังเกิดขึ้น จากข้อมูลของ Gartner ซึ่งเป็นข้อมูลเชิงลึกด้านการวิเคราะห์ พบว่ามีเพียง 20% เท่านั้นที่จะให้ผลลัพธ์ทางธุรกิจภายในสิ้นปีนี้ ก่อนหน้านี้ Gartner กล่าวไว้ว่า 80% ของโครงการ AI จนถึงปี 2020 กำลังเล่นแร่แปรธาตุกันอยู่โดย “พ่อมด” (เปรียบเปรยถึงนักวิทยาการข้อมูลที่ใช้เทคนิคการวิเคราะห์ข้อมูลแสนล้ำ จน Stakeholders ที่ใช้งานจริงเข้าไม่ถึง) ถึงจะยังไม่ทราบว่าปีนี้จะมีเปอร์เซ็นต์ออกมาเป็นเท่าใด แต่แนวโน้มดูเหมือนจะยังไม่เปลี่ยนแปลง ซึ่ง VentureBeat รายงานว่า “จะมีเพียง 13% ของโครงการวิทยาการข้อมูล (Data Science) หรือเพียง 1 ใน 10 จากทั้งหมดเท่านั้น ที่สามารถออกดอกออกผลจริงได้” นั้นหมายความว่า โครงการวิทยาการข้อมูลในอุตสาหกรรประสบกับอัตราความล้มเหลวถึง 87% ตัวเลขดังกล่าวบ่งชี้ว่าการใช้ข้อมูลเพียงแห่งเดียวจะไม่นำพาโครงการไปในหนทางที่ประสบความสำเร็จ แต่กลับนำไปสู่การใช้ดิจิทัลในทางที่ไม่เกิดประโยชน์ และแน่นอนว่าหากบริษัทต่าง ๆ ยังคงอยู่ในแนวทางนี้ พวกเขาก็จะต้องตกม้าตายในที่สุด การวิเคราะห์ข้อมูลกับ AI หลุดไปผิดที่ผิดทางตั้งแต่ตรงไหน? ขอยกตัวอย่างจากอุตสาหกรรมการซื้อขายอสังหาริมทรัพย์จากเจ้าของโดยตรง หรือที่เรียกกันว่าอุตสาหกรรม iBuyer ซึ่งมีบริษัทที่ดำเนินการในรูปแบบ iBuying ได้แก่ Zillow (Digital Marketplace ในการให้ข้อมูลเกี่ยวกับอสังหาริมทรัพย์แบบครบวงจรตั้งแต่ขั้นตอนการซื้อ/ขาย/เช่า รวมถึงการพิจารณาให้สินเชื่อและการซ่อมแซมบ้าน), Opendoor (Startup ที่มีบริการรับซื้อบ้านภายในเวลาอันรวดเร็ว) และ Offerpad (แบรนด์อสังหาริมทรัพย์ในอเมริกา) ธุรกิจที่กล่าวมา คือสิ่งที่นักลงทุนด้านอสังหาริมทรัพย์เห็นการขับเคลื่อนด้วยข้อมูลและใช้ระบบการตัดสินใจแบบดิจิทัลอัตโนมัติที่ยอดเยี่ยม แต่ราคาขายของบริษัทเหล่านี้กลับพลิกผัน (หากใครได้ลองค้นหาข้อมูลราคาหุ้นของบริษัทเหล่านี้ เรียกได้ว่าน่าผิดหวังเลยทีเดียว) แปลว่ามันมีอะไรบางอย่างผิดพลาดใช่มั้ยนะ แน่นอน..เห็นได้ชัดเลยว่าต้องมีมากแน่ ๆ ในเดือนพฤศจิกายน 2021 Zillow ราชาแห่งอสังหาริมทรัพย์ดิจิทัลในขณะนั้นขาดทุนอย่างมากและออกจากธุรกิจ iBuying ทันที คู่แข่งอย่าง Opendoor จึงเข้ายึดครองตลาดแทน พร้อมประกาศว่าจะทำข้อมูลได้ดีขึ้นกว่าเจ้าเก่าเสียด้วย เว้นเสียแต่ว่าเมื่อวันที่ 22 มกราคม หุ้นของ Opendoor กลับร่วงลง ประกอบกับ Barron รายงานว่า “แบบจำลอง iBuying มีความเสี่ยง” โดยนักวิเคราะห์ของ Bank of America ทั้งหมดบอกว่าอุตสาหกรรม iBuying ประสบความสูญเสียทางการเงินอย่างหนักจากรายงานของ HousingWire นี่ไม่ใช่สัญญาณที่ดีเลยสำหรับบริษัทที่ขับเคลื่อนด้วยข้อมูลในทุกภาคอุตสาหกรรม… เป็นเรื่องปกติที่หลายคนในภาคอุตสาหกรรมการวิเคราะห์ข้อมูลและ AI ต่างรีบออกมาตำหนิจุดต้องสงสัยถึงสาเหตุของความด้อยประสิทธิภาพ เช่น การขาดแคลนทักษะ การขาดแคลนงบประมาณ กลยุทธ์ทางธุรกิจที่ไม่มีประสิทธิภาพ และผู้ถือหุ้นที่วิสัยทัศน์ไม่ยาวไกล เป็นต้น เรื่องพวกนี้มีผลกระทบต่อโครงการ ถึงแม้อาจจะไม่มากเท่าต้นตอความคิดริเริ่มที่ใช้เทคโนโลยีอื่น ๆ จึงเกิดคำถามขึ้นว่า “อะไรคือปัจจัยที่ทำให้โครงการเกี่ยวกับข้อมูล ออกนอกลู่นอกทาง ได้ขนาดนี้?” มีหลายคนที่คิดว่าผู้ร้ายตัวจริงนั้น น่าจะแฝงอยู่ในกระบวนการมากกว่าที่จะเป็นสาเหตุจากเทคโนโลยี พลิกรูปแบบ ขับเคลื่อนด้วยข้อมูล ไปสู่ ขับเคลื่อนด้วยการตัดสินใจ ปัจจุบันบริษัทต่าง ๆ ขุดค้นข้อมูลเพื่อหาข้อมูลเชิงลึก แต่กระบวนการดังกล่าวมักจะไปกำหนดทิศทางในการตัดสินใจ หรือพูดอีกนัยหนึ่งคือตีกรอบการตัดสินใจของคุณนั่นเอง โดยการใส่ข้อมูลไว้ก่อนตรงหัวของกระบวนการ แล้วทุกอย่างก็เป็นไปตามนั้น การให้ข้อมูลมากำหนดการตัดสินใจเป็นสิ่งที่ตรงกันข้ามกับสิ่งที่บริษัทตั้งใจจะทำ แต่กลับคาดหวังว่าข้อมูลจะเป็นตัวช่วยในการตัดสินใจ และด้วยเหตุนี้เองการทำเหมืองข้อมูล (Data Mining – การวิเคราะห์ข้อมูลจากข้อมูลจำนวนมาก ที่เรียกว่า Big Data เพื่อหาความสัมพันธ์ของข้อมูลที่ซ่อนอยู่) มีแนวโน้มว่าจะมีความลึกน้อยลง แต่ไปเพิ่มข้อบังคับในสิ่งที่จะคิดแทน หากบริษัทพลิกรูปแบบเป็นการตัดสินใจขึ้นมานำก่อน อันแสดงว่าคุณกำลังมุ่งเป้าไปที่ผลลัพธ์ที่ต้องการให้เกิด ผลลัพธ์นั้นอาจเป็นผลดีหรือดีที่สุดของตัวเลือกที่ไม่ดี แต่อย่างน้อย สิ่งที่ตั้งใจให้เกิดขึ้นด้วยวิธีนี้ มีเจตนาในการชี้นำกระบวนการมากกว่าเป็นข้อมูล ในองค์กรที่ขับเคลื่อนด้วยการตัดสินใจ ทุกโครงการที่มีข้อมูลมาช่วยจะมุ่งตรงไปยังผลลัพธ์ที่ถูกยอมรับและให้ผลที่คาดไว้หรือผลตอบแทนจากการลงทุน สิ่งนี้สร้างการควบคุมที่ดีขึ้นในที่ที่บริษัทหรือโครงการถูกนำทาง นอกจากนี้ ยังควรช่วยลดอัตราความล้มเหลวของโครงการลงอย่างมาก อีกสิ่งหนึ่งที่ควรคำนึงถึง เนื่องจากคุณยังคงใช้กระบวนการ Data Mining เช่นเดิม การให้เริ่มต้นกระบวนการด้วยการตัดสินใจไปก่อนจะไปช่วยกำหนดข้อมูลที่ต้องการใช้ แทนที่จะเป็นวิธีดั้งเดิม แบบที่เริ่มต้นด้วยข้อมูลแล้วนำไปตัดสินใจในภายหลัง ข้อมูลอคติและการตัดสินใจที่ผิดพลาด อย่างไรก็ตาม สิ่งนี้ไม่ได้หมายความว่ามันคือการใช้กึ๋นของผู้บริหารหรือผู้นำมาตัดสินใจ เพราะวิธีแบบนั้นอาจนำไปสู่ข้อมูลที่เป็นอคติและเป็นการตัดสินใจที่ไม่ดีมาแล้ว การตัดสินใจของคุณในตอนเริ่มต้นของกระบวนการใหม่นี้ จะได้มาจากวิทยาศาสตร์และสูตรทางคณิตศาสตร์หลาย ๆ แบบ ยกตัวอย่างเช่น คุณอาจเลือกใช้วิธีนี้ สำหรับการตัดสินใจที่ต้องการรวมเรื่องเศรษฐศาสตร์ การวิเคราะห์การตัดสินใจ เศรษฐศาสตร์พฤติกรรม จิตวิทยา การออกแบบ ปรัชญา ทฤษฎีเกม และอื่น ๆ อันขึ้นอยู่กับลักษณะของการตัดสินใจในตอนนั้นและสิ่งที่มีอยู่ในมือ หรือหากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับกลวิธี เทคนิค ตัวเลือกในศาสตร์แห่งการตัดสินใจ ทิศทางทางเทคนิคที่เฉพาะเจาะจงมากขึ้น เราขอแนะนำแหล่งข้อมูลที่ทั้งเข้าใจง่ายและเป็นผู้นำทางที่มั่นคงในเรื่องการตัดสินใจอย่างชาญฉลาดเพราะทั้งชื่อชั้นกับผลงานเหล่านี้ ได้รับการยอมรับโดยกว้างสำหรับวิธีการใหม่นี้ในการตัดสินใจ อาจเริ่มต้นด้วยการอ่านบทความหรือรับชมวิดีโอที่มีใน YouTube จำนวนมาก เช่น Decision Intelligence โดย Cassie Kozyrkov หัวหน้า Decision Intelligence ที่ Google, อ่านหนังสือ Digital Decisioning อันแสนยอดเยี่ยม โดย James Taylor ผู้มีพรสวรรค์และเทคนิคต่าง ๆ หรือจะเพิ่มการอ่านข้อมูลจากหนังสือที่เพิ่งตีพิมพ์อย่าง Decision Intelligence For Dummies เข้าไปในรายการด้วย เพื่อช่วยประกอบการตัดสินใจ นอกจากนี้ ยังมี Link โดย Lorien Pratt หรือ Gartner's Take ที่ได้รายงานเกี่ยวกับหัวข้อนี้ไว้เช่นกัน เมื่อได้เริ่มศึกษาหาความรู้เพิ่มตามหัวข้อนี้แล้ว คุณจะพบว่าการเปลี่ยนแปลงบริษัท จาก “การขับเคลื่อนด้วยข้อมูล” เป็น “การขับเคลื่อนจากการตัดสินใจ” นั้นจะเป็นการเคลื่อนไหวอันชาญฉลาด และมีประสิทธิภาพอย่างยิ่งในท้ายที่สุด บทความโดย Pam Bakerเนื้อหาจากบทความของ InformationWeekแปลและเรียบเรียงโดย วิน เวธิตตรวจทานและปรับปรุงโดย ปพจน์​ ธรรมเจริญพร
10 November 2022

บทความ

Crowd-powered Data Mining
บ่อยครั้งที่การทำ Data Mining Task นั้นการประมวลผล Data โดยใช้เพียง Machine นั้นอาจไม่เพียงพอต่อลักษณะการนำ Data ไปใช้ในปัจจุบันเช่น การวิเคราะห์ความรู้สึก (Sentiment Analysis) และการจำแนกรูปภาพว่ารูปไหนคือสัตว์ชนิดใด (Image Classification) เนื่องจาก Task จำพวกนี้จำเป็นต้องใช้ความสามารถในการตระหนักรู้ของมนุษย์ (Human Cognitive Ability) มาช่วย Machine ในการประมวลผล Data เหล่านี้ให้ถูกต้องและมีประสิทธิภาพมากขึ้น และการที่จะกระจาย Data Mining Task เหล่านี้ไปหามนุษย์จำนวนมาก เพื่อให้มนุษย์ช่วยแก้ปัญหา หรือประมวลผล Data ที่ Machine ทำได้ยาก และนำข้อมูลเหล่านั้นมาใช้ประโยชน์ต่อได้ โดยหลักการนี้เรียกว่าการทำ Crowdsourcing ในปัจจุบันนี้ การทำ Crowdsourcing นั้นอยู่ใน Real-world application ทั่วไปทั้งขนาดใหญ่และเล็ก และมีจุดประสงค์ที่แตกต่างกันออกไป โดยส่วนใหญ่จะให้ผู้ใช้งานนั้นเข้ามาใช้บริการ Application จากนั้นจะบันทึกข้อมูลการใช้งาน และสามารถนำข้อมูลเหล่านั้นไปใช้ประโยชน์อย่างอื่นต่อ โดยการที่ผู้ใช้งานนั้นเข้ามาใช้ Application ด้วยแรงจูงใจบางอย่าง ยกตัวอย่างเช่น Wang – Public Crowdsourcing platform สัญชาติไทยที่ผู้ใช้งานสามารถเข้ามา annotate ข้อมูลเพื่อแลกกับเงิน Deadline Always Exists – Web Application ยอดฮิตที่อยู่ในลักษณะของแบบทดสอบ จำลองความตาย ที่ทำให้เราสามารถ Reflex ชีวิตของตัวเองได้ โดยผู้ใช้งานจะมา Contribute ข้อมูลเพื่อแลกกับอารมณ์หรือความรู้สึกที่ได้รับกลับไป ReCAPTCHA – เป็น Engine ที่ช่วยในการป้องกันเว็บไซต์จาก Bot โดยการให้ผู้ใช้งานป้อนคำตามภาพที่เห็น ซึ่งถ้าหากผู้ใช้งานเป็นมนุษย์จริง ๆ จะสามารถป้อนคำตามที่เห็นได้ไม่ยาก (เหรอ?) โดยทาง ReCAPTCHA นั้นสามารถนำข้อมูลของพฤติกรรมการพิมพ์ของผู้ใช้งานไปใช้ประโยชน์ต่อได้ Pantip – แพลตฟอร์ม Discussion Forum ที่มียอดการใช้งานเยอะที่สุดในประเทศไทย ที่สามารถให้คนมาโพส ถามตอบ ขอความช่วยเหลือ หรือปรึกษาปัญหาชีวิตได้โดยไม่หวังผลตอบแทน LinkedIn – แพลตฟอร์ม Social Network สำหรับหางานที่เป็นที่นิยมทั่วโลก โดยผู้ใช้งานจำเป็นต้องเข้ามากรอกข้อมูลต่าง ๆ ที่เป็นประโยชน์ต่อการหางาน หรือหาเงินนั่นเอง FoldIt – Game Application ที่ให้ผู้คนเข้ามาช่วย Solve puzzle ทาง Scientific Simulation ต่าง ๆ เช่น Protein Folding หลังจากนั้นเจ้าของแพลตฟอร์มสามารถนำข้อมูลบันทึกการเล่น (Replay) มาใช้ประโยชน์สำหรับการทดลองวิทยาศาสตร์​หรือการแพทย์จริง ๆ ได้ Google PageRank – แพลตฟอร์ม Search Engine ที่ไม่มีใครไม่รู้จัก โดยทาง Google จะนำข้อมูลพฤติกรรมการค้นหาจำนวนมากมาประมวลผล เพื่อทำการจัดอันดับลำดับความสำคัญของเว็บไซต์ (Page Rank) ว่าเว็บไซต์ใดควรขึ้นก่อน หรือหลังเว็บไซต์ใดเวลาที่มีผู้ใช้งานทำการค้นหา Wikipedia – แพลตฟอร์มสารานุกรมที่สามารถให้ผู้ใช้งานเข้ามา Contribute ข้อมูลที่เป็น Knowledge Base เกี่ยวกับเรื่องต่าง ๆ โดยผู้ใช้งานส่วนใหญ่นั้นเข้ามาเพื่อ Contribute ข้อมูลที่คิดว่าเป็นประโยชน์ให้โลกได้รับรู้ และสามารถนำองค์ความรู้ไปใช้ประโยชน์ หรือต่อยอดได้ โดยไม่หวังผลตอบแทน Platform ข้างต้นที่กล่าวมานั้น ต่างก็มีประเภทของแรงจูงใจ (Incentive) ที่ต่างกัน ดังนั้นคำถามคือประเภทของแรงจูงใจนั้นส่งผลต่อคุณภาพของการทำ Crowdsourcing อย่างไร ?? จากภาพจะสังเกตได้ว่า การได้รับ Incentive ที่เป็นเงินทันทีหลังจากการทำแบบทดสอบ (Immediate Payoffs) นั้น มักจะได้คะแนนดีที่สุด เมื่อเทียบกับแรงจูงใจอย่างอื่น ทั้งนี้ทั้งนั้น คะแนนที่ได้รับขึ้นอยู่กับปัจจัยหลายอย่างเช่นประเภทของผู้ใช้งาน หรือ Task Complexity ที่สูงขึ้นนั้นการที่แบบทดสอบอยู่ในรูปแบบของเกมเพื่อความเพลิดเพลิน อาจได้คะแนนเฉลี่ยที่สูงกว่าการมีเงิน (Immediate Payoffs) เป็นรางวัลก็ได้  การพัฒนา Crowdsourcing Platform หรือ Application เป็นของตัวเองนั้น นอกจากจะใช้ Cost ในการ Develop และ Maintenance ที่สูงรวมถึงการเรียก User ให้เข้ามาใช้งาน Platform เป็นจำนวนมากนั้นก็เป็นเรื่องที่ยุ่งยาก ถ้าอย่างนั้นบริษัทที่ต้องการ Data หรือ Insight จากการทำ Crowdsourcing แต่ไม่มี Platform เป็นของตนเองพอจะทำอย่างไรได้บ้าง ?? ตัวเลือกหนึ่งคือการใช้งานบริการ Public Crowdsourcing Platform Amazon Mechanical Turk (AMT) , CrowdFlower, ChinaCrowds ซึ่งโดยตัว Platform นั้นจะมี Feature สำหรับการทำ Crowdsourcing ค่อนข้างครบวงจร เพียงแต่ผู้ใช้งานจำเป็นต้องออกแบบ Task และหาผู้ทำ Task (Worker) รวมถึงออกแบบระบบ Incentive เอง โดยจะมีบทบาททั้งหมด 3 อย่างได้แก่ Requestor จะส่ง Task และ Budget ไปให้ Public Crowdsourcing Platform หลังจากนั้น Task ต่าง ๆ จะถูกประมวลผลโดย Public Crowdsourcing Platform ว่าจะส่ง Task ไปให้ Worker คนใด จากนั้นเมื่อ Worker ทำ Task เสร็จภายในเวลาที่กำหนด Crowdsourcing จะนำ Answer ของ Worker มาประมวลผลเพื่อคำนวณ Quality Score ของ Answer และ Worker จากนั้นจึงส่งผลลัพธ์ทั้งหมดกลับไปยัง Requestor เพื่อให้ Requestor นำ Data หรือ Insight ไปเพิ่มผลประกอบการให้ธุรกิจต่อไป Challenges ในการทำ Crowdsourcing Platform Data หรือ Insight ที่ได้รับมาจากการทำ Crowdsourcing นั้นบางทีอาจไม่มีคุณภาพที่ไม่เพียงพอต่อการนำไปใช้ประโยชน์ต่อดั่ง Quote ที่เคยได้ยินกันคุ้นหูอย่าง “Garbage In Garbage Out” หรือการทำ Crowdsourcing บางทีนั้นไม่คุ้มต่องบประมาณ หรือทรัพยากรที่ได้ทุ่มลงไป ดังนั้นจึงจำเป็นต้องมีการประเมิน และกำกับควบคุมตัวแปรทั้ง 3 อย่างได้แก่ Quality – เนื่องจาก Worker เป็นกลุ่มมนุษย์ที่มาจากร้อยพ่อพันแม่ มีความแตกต่างกันตั้งแต่องค์ความรู้ นิสัยส่วนตัว รสนิยม วัฒนธรรม นอกจากนั้นมนุษย์ยังมีโอกาสผิดพลาดได้อีกด้วย ทำให้ Task ที่ส่งไป Worker อาจทำผิดพลาดได้ Cost – การทำ Crowdsourcing นั้นจำเป็นต้องมี Incentive ไม่ว่าจะอยู่ในรูปของเงิน หรือแรงจูงใจบางอย่างก็ตาม ล้วนมี Cost ที่ตามมา Latency – คือเวลาที่ใช้ในการทำ Crowdsourcing ทั้งหมดซึ่งเวลานั้นเป็น Resource ที่สำคัญอย่างนึง ถ้าหากใช้เวลานานย่อมมีต้นทุนที่เพิ่มขึ้นตามมา หรืออาจทำให้ผลลัพธ์ที่ได้มานั้นเอาไปใช้ไม่ได้ดีในบางโจทย์เนื่องจาก Trend ข้อมูลมันเปลี่ยนไปแล้ว  การทำ Quality Control เนื่องจากคุณภาพ (Quality) ของ Worker นั้นไม่เท่ากันทำให้จำเป็นต้องหาทางดึงคะแนนเชิงคุณภาพ (Extract Quality Score) ของ Worker แต่ละคนมาโดยจะมี 2 กรณีหลัก ๆ ได้แก่ กรณีที่หนึ่ง การที่รู้ Ground  Truth บางอย่างอยู่แล้ว เช่น Task การแปลภาษา, Requestor สามารถตรวจคำตอบเป็นบาง Task ได้ว่า Task ใดถูกหรือผิดเพื่อคำนวณ Quality Score ของแต่ละ Worker โดยหลัก ๆ จะมีอยู่สองวิธีได้แก่ อย่างไรก็ตามทั้งสองวิธียังมีข้อเสีย หรือ Limitation บางอย่างอยู่ได้แก่ จะทำซึ่งบางอย่างที่ว่านั้นอาจ Define Absolute Ground Truth ไม่ได้เลย นอกจากนี้โจทย์ส่วนใหญ่นั้นมักจะไม่รู้ Absolute Ground Truth จริง ๆ หรือ Ground Truth อาจเปลี่ยนไปตามเวลา และยุคสมัย ดังนั้นกรณีแรกอาจเป็นเรื่องยากที่จะ Extract Quality Score ที่ accurate จากแต่ละ Worker ได้ ความโชคร้ายดันมาอยู่ที่โจทย์ส่วนใหญ่นั้นมักจะไม่รู้ Ground Truth ที่แน่นอนซึ่งอาจเป็นโจทย์ในเชิงความเห็น เชิงปรัชญา โจทย์ที่มีได้หลายคำตอบ หรือโจทย์ที่ยังไม่สามารถพิสูจน์หาความจริงได้เช่น ในมิติของการทำ Sentiment Analysis นั้นคอมเมนท์ที่มีความคลุมเคลือจำพวก “ร้านอาหารร้านนี้อร่อยนะ แต่ยังรสชาติเค็ม ๆ อยู่เล็กน้อย” ถือว่าเป็นคอมเมนท์ในเชิงบวกหรือลบกันล่ะ ?? ถ้าอย่างนั้นโจทย์ที่ Define Absolute Groundtruth ไม่ได้จะทำอย่างไรจึงจะสามารถ Extract Quality Score ออกมาจาก Worker ได้ล่ะ ? กรณีที่สอง เมื่อไม่รู้ถึง Ground Truth ใด ๆ ซึ่งวิธีที่การทำ Truth Inference หรือ Extract Quality Score นั้นมีหลายวิธี และปัจจุบันยังไม่มีวิธีที่ดีที่สุด...
1 April 2021
PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.