สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

เทคโนโลยี Database : พัฒนาการเพื่อหลอมรวมกับ Machine Learning และการจัดเก็บข้อมูล

Apr 1, 2022
เทคโนโลยี Database
เทคโนโลยี Database : พัฒนาการเพื่อหลอมรวมกับ Machine Learning และการจัดเก็บข้อมูล

เมื่อ Bob Van Luijt ซีอีโอของ SeMI Technologies ดูประวัติความเป็นมาของ Database เขาเน้นย้ำถึงคลื่นแห่งความเปลี่ยนแปลงที่แตกต่างกันในแต่ละครั้ง คลื่นแรกคือโลกของ SQL ที่ย่อมาจาก Structured Query Language ซึ่งเป็นภาษาที่ใช้ในการจัดการฐานข้อมูลซึ่งได้รับการยอมรับมากที่สุดในโลก เพื่อจัดการกับฐานข้อมูล โดยที่ข้อมูลทั้งหมดจัดวางอย่างเป็นระเบียบในตารางสี่เหลี่ยม คลื่นถัดไปคือการปฏิวัติ NoSQL หรือ Not only SQL ก็มาถึง เป็นยุคที่มีความยืดหยุ่นของรูปแบบข้อมูล โดยข้อมูลไม่จำเป็นต้องมาจัดเก็บในตารางสี่เหลี่ยมอีกต่อไป และแต่ละรายการไม่จำเป็นต้องมีเก็บ Field ที่เหมือนกัน ยิ่งตอนนี้บริษัทของเขากำลังจะเอา Weaviate เข้าสู่ตลาด นี่เป็นส่วนหนึ่งของคลื่นลูกใหม่ “Database ที่ใช้ AI” ผสานพลังกับ Machine Learning เข้ากับการจัดเก็บข้อมูล ( เทคโนโลยี Database )

เทคโนโลยี Database
Weaviate Logo

โมเดลใหม่นี้ไม่เพียงแค่จะดึงศักยภาพของ AI Algorithm ออกมาเท่านั้น แต่จะไปถึงขั้นพัฒนา Search Engine ที่มีความยืดหยุ่นกว่า ซึ่งไม่ได้จำกัดการค้นหาการจับคู่ที่ตรงกันอย่าง Database ในโลกแบบเดิมต้องการการสะกดชื่อที่ถูกต้องหรือรหัสยืนยันที่ถูกต้อง แต่ Weaviate สามารถค้นหารายการที่คล้ายคลึงกันมากที่สุด

ความคล้ายคลึงกันหมายความว่าอย่างไร

นั่นยังคงเป็นคำถามเปิดกว้างสำหรับผู้ใช้หลาย ๆ คน ซึ่งส่วนใหญ่จะไปในทางกำหนดวิธีการคำนวณว่าข้อมูลในของสองชิ้น คิดออกมามีค่าใกล้หรือห่างกันเพียงใด การค้นหาค่ารายการที่ใกล้เคียงที่สุดใน Database สามารถทำได้โดย การหาตัวชี้วัดหรือวิธีการระบุความหมายของการอยู่ใกล้หรือไกลกัน โดยคิดมาจากหลาย ๆ Field และกำหนดโดย AI ยกตัวอย่างเช่น เราอยากเทียบว่า งูหลามกับงูเหลือมคล้ายกันยังไง เราก็เอาค่าต่าง ๆ เช่น ความยาวของงู ขนาดรอบวง สีของงู และแปลงค่าเฉดสี น้ำหนัก มาใส่ลงในแต่ละ Field และก็คำนวณ ว่ามันแตกต่างกันมากน้อยอย่างไร

SeMI Technologies ซึ่งเป็นผู้ระดมทุนหลัก ในการที่พัฒนา Weaviate ซึ่งเป็น Database แบบ Open Source ที่เป็นระบบที่ใคร ๆ ก็สามารถมาช่วยพัฒนาได้ ไม่ได้มีใครเป็นเจ้าของ บริษัทต่าง ๆ สามารถดาวน์โหลด Code หรือซื้อ Weaviate ที่เป็นบริการ Outsource ก็ได้

โดยผู้ใช้ Weaviate หลายคนอาศัยแบบจำลองที่ Weaviate  สร้างไว้ทั้งในภาษาอังกฤษและภาษาอื่น ๆ ที่เป็นที่นิยม มีแบบจำลองอันนึงที่สร้างขึ้นจากบทความ Wikipedia ทั้งหมดที่ SeMI ทำไว้และเปิดให้ผู้ที่สนใจก็สามารถเอาไปทดลองได้ และยังมีโมเดลที่สร้างไว้อีกจำนวนหนึ่งที่พร้อมใช้งานอย่างเช่น Haystack ของ Deepset (โมเดลที่สร้างเพื่อพัฒนาคอมพิวเตอร์เข้าใจภาษามนุษย์มากยิ่งขึ้น) ที่ใช้การค้นหาเชิงความหมาย – Semantic Search (ค้นหาผลโดยพิจารณาจากความตั้งใจในการค้นหา ไม่ใช่แค่คำหลัก) หรือการค้นหาเอกสารของ Jina.ai (เป็นโมเดลอีกอันที่พยายามให้ AI ช่วยเราค้นหาได้ดีขึ้นโดยใช้หลักการ Semantic Search)

Database เวกเตอร์คืออะไร?

กลไกหลักของ Weaviate จะสามารถทำงานกับชุดข้อมูลต่าง ๆ ได้แบบอิสระ จึงเป็นเหตุผลที่บางคนเรียกระบบเหล่านี้ว่า “Database เวกเตอร์” (คือไปได้ทุกทิศทาง)

“การใช้งานส่วนใหญ่ยังคงอยู่ในแบบตัวอักษร” โดย Van Luijt กล่าวไว้ว่า “แต่สังเกตได้ว่ามีคนจำนวนมากขึ้นเรื่อย ๆ เริ่มเข้าใจและพูดว่า ‘โอ้โห ถ้าฉันสามารถค้นหาแบบนี้ได้ผ่านทางข้อความ ขอฉันลองใส่รูปภาพลงไปด้วยเถอะ’”Van Luijt บอกว่าหลังจากทดลองกับภาพและเสียง ผู้ใช้บางคนกำลังนำเข้าข้อมูลอื่น ๆ เช่นลำดับ DNA ข้อมูลสำรวจทางธรณีวิทยา การค้นหาเรื่อง Genome (จีโนม) เรื่อง DNA ถือเป็นเรื่องที่เหมาะมากกับเทคโนโลยีตัวนี้ เพราะมีงานวิจัยบอกว่าลำดับวงศ์ตระกูล สายพันธุ์บางอย่าง มันแค่คล้าย ๆ ไม่ได้ตรงกันเป๊ะ ๆ เทคโนโลยีอันนี้แหล่ะจะทำให้เหล่านักวิจัยสามารถติดตามการโยกย้ายของผู้คนผ่านเวลาและสถานที่ เป็นโอกาสที่เปิดทางให้เราศึกษาประวัติศาสตร์มนุษย์ผ่านข้อมูล DNA

ตัวอย่างอื่น ๆ ผุดขึ้นมากมายเมื่อผู้ใช้จินตนาการถึงตัววัดความคล้ายคลึงกันใหม่ การทดลองเบื้องต้นอย่างหนึ่งคือการแบ่งพื้นผิวโลกออกเป็นสี่เหลี่ยมเล็ก ๆ และจัดระดับความไวต่อการเกิดน้ำท่วม พวกเขาหวังว่าจะสร้างโมเดลใหม่ที่จะเพิ่มความเสี่ยงด้านราคาประกัน แนะนำการลงทุนในระดับโลก หรือเรื่องภาวะโลกร้อน

วิธีค้นหาที่แกร่งขึ้นเมื่อเจอชุดข้อมูลขนาดใหญ่

Van Luijt กล่าวว่าเครื่องมือค้นหาใหม่ของ Weaviate และ SeMI สร้างผลการหาที่เร็วและมีประสิทธิภาพมากขึ้นสำหรับชุดข้อมูลขนาดใหญ่ มันเหนือกว่า Database แบบเดิมที่เอา AI Algorithm มาใช้ บางคนจะใช้ Database สำหรับการค้นหาพื้นฐานแล้วส่งออกคำตอบที่เป็นไปได้เหล่านี้ไปยังโมเดล Machine Learning ให้มันเรียนรู้ เพื่อเลือกคำตอบที่ดีที่สุด

“ถ้าคุณทำอย่างนั้นกับเอกสารเป็นพัน ๆ ชิ้น คุณก็จะสบาย และไม่สังเกตเห็นอะไรเลย” Van Luijt กล่าว “แต่คุณไม่สามารถค้นหา Database ทั้งหมดและทำงานอย่างเช่นการตอบคำถามภายในเวลาไม่กี่วินาทีได้แน่ ๆ”

โอกาสที่เปิดกว้างแบบนี้ยิ่งขับเคลื่อนให้เกิดการทดลองและการลงทุน เมื่อสัปดาห์ที่แล้ว SeMI ปิดการระดมทุนได้ถึง 16 ล้านดอลลาร์ซึ่งนำโดย New Enterprise Associates (NEA) และ Cortical Ventures ในเดือนสิงหาคม 2020 Zetta Venture Partners เป็นผู้นำที่ได้เงินลงทุน 1.6 ล้านกับ ING Ventures

“เราจับตาดูความก้าวหน้าของ Machine Learning และ AI อย่างใกล้ชิด รอทีมและผลิตภัณฑ์ที่เหมาะสมเพื่อคิดค้นวิธีการทำงานกับข้อมูล” Tony Florence ผู้จัดการหุ้นส่วนทั่วไปฝ่ายเทคโนโลยีของ NEA กล่าวในการแถลงข่าว “Database เวกเตอร์ของ Weaviate สามารถจัดการกับข้อมูลที่ไม่ได้มีโครงสร้างตายตัว ทั้งในข้อความ เสียง และรูปภาพได้ นี่เป็นการปลดล็อกไปสู่การใช้งานในเรื่องใหม่ ๆ ที่ทรงพลังเกินจินตนาการ”

การประเมินสมรภูมิแข่งขัน

การแข่งขันแตกต่างกันไปเนื่องจากมี Database เวกเตอร์ Open Source อื่น ๆ อีกหลายตัวที่มีคุณสมบัติคล้ายคลึงกัน อย่างเช่น Milvus เกิดจากโปรแกรมของ LF AI & Data Foundation ที่ฟูมฟักมาอย่างดีและยังสนับสนุนการค้นหาข้อมูลเพื่อหาผลลัพธ์ที่คล้ายคลึงกันได้ด้วย ส่วน Pinecone.io ที่ไปรวมกับ Kafka (ระบบซอฟท์แวร์ที่โดดเด่นเรื่องประมวลผล กระจายการคำนวณ) ของ Apache เด่นเรื่องการค้นหาข้อมูลสตรีมมิ่งที่คล้ายคลึงกัน และก็ยังมี Vespa มุ่งเน้นเฉพาะแอปพลิเคชันข้อความและใช้ความคล้ายคลึงกันเพื่อสร้างคำแนะนำให้ผู้ใช้งาน

บริษัทที่ทำระบบ Cloud ไม่พลาดที่จะรวมตัวเลือกดี ๆ ในผลิตภัณฑ์จัดเก็บข้อมูลของพวกเขาด้วย เช่น Google เสนอ Vertex AI Matching Engine เอาไว้ขับเคลื่อนผลิตภัณฑ์ Auto Machine Learning ของตัวเอง

ส่วนบริษัท Database แบบดั้งเดิมก็กำลังเสริมทัพ Database ที่เชื่อมต่อกับ AI Algorithm ตัวอย่างเช่น Oracle เสนอ AI Algorithm และมุ่งไปที่ “ความเร็วของ Machine Learning ใน Database”  ส่วนด้าน IBM ได้เปลี่ยนชื่อ db2 ผลงานสุดคลาสสิกของบริษัทเป็น “Database AI ” ใช้ Machine Learning เพื่อเพิ่มประสิทธิภาพการค้นหาและ “Confidence-based Querying – การสืบค้นโดยคิดจากความมั่นใจ”  (เป็นเทคโนโลยีที่ AI จะคอยช่วยเรา ในกรณีที่ผู้ใช้เองยังไม่มั่นใจด้วยซ้ำเวลาค้นหา เช่น ชาวบ้านบอกว่าคนร้ายอายุราว ๆ สี่สิบ พูดเหมือนคนอีสาน AI จะช่วยคิดและประเมินว่าควรจะต้องสืบค้นหาช่วงอายุคนร้ายสักเท่าไหร่ถึงเท่าไหร่ดี ถิ่นฐานที่อยู่ควรเป็นที่ไหน เวลาหาข้อมูลในฐานข้อมูลคนร้าย)

แน่นอนทุกคนต้องการวิธีที่จะได้ AI Algorithm ที่จำเป็นต้องใช้การประมวลผลสูง เมื่อพวกเขามีชุดข้อมูลที่ใหญ่และซับซ้อนมากขึ้น

“นี่จะเป็นโครงสร้างพื้นฐานที่ใช้เทคโนโลยี AI อย่างแท้จริง” Van Luijt อธิบาย “มันคือสะพานนี้ถูกสร้างขึ้น เพื่อเชื่อมระหว่างทุกสิ่งที่เกิดในโลกวิทยาการข้อมูลและผู้คนเริ่มมองเห็นความสัมพันธ์และความจำเป็นที่จะต้องใช้ AI กับ Database ในบริษัทของพวกเขาแล้ว แล้วเรากำลังสร้างสะพานนั้นให้เกิดขึ้นจริง”

“For the first time, this bridge is being built between all that stuff that’s being done in data science and people seeing the promise and need for their companies.  We’re making that bridge.”

บทความโดย Peter Wayner
เนื้อหาจากบทความของ VentureBeat
แปลและเรียบเรียงโดย วิน เวธิต
ตรวจทานและปรับปรุงโดย นววิทย์ พงศ์อนันต์

Waythit Puangpakisiri

Position Technology Solution Principal, IT division

Navavit Ponganan

Editor-in-Chief and Senior Data Scientist at Big Data Institute (Public Organization), BDI