เมื่อ Bob Van Luijt ซีอีโอของ SeMI Technologies ดูประวัติความเป็นมาของ Database เขาเน้นย้ำถึงคลื่นแห่งความเปลี่ยนแปลงที่แตกต่างกันในแต่ละครั้ง คลื่นแรกคือโลกของ SQL ที่ย่อมาจาก Structured Query Language ซึ่งเป็นภาษาที่ใช้ในการจัดการฐานข้อมูลซึ่งได้รับการยอมรับมากที่สุดในโลก เพื่อจัดการกับฐานข้อมูล โดยที่ข้อมูลทั้งหมดจัดวางอย่างเป็นระเบียบในตารางสี่เหลี่ยม คลื่นถัดไปคือการปฏิวัติ NoSQL หรือ Not only SQL ก็มาถึง เป็นยุคที่มีความยืดหยุ่นของรูปแบบข้อมูล โดยข้อมูลไม่จำเป็นต้องมาจัดเก็บในตารางสี่เหลี่ยมอีกต่อไป และแต่ละรายการไม่จำเป็นต้องมีเก็บ Field ที่เหมือนกัน ยิ่งตอนนี้บริษัทของเขากำลังจะเอา Weaviate เข้าสู่ตลาด นี่เป็นส่วนหนึ่งของคลื่นลูกใหม่ “Database ที่ใช้ AI” ผสานพลังกับ Machine Learning เข้ากับการจัดเก็บข้อมูล ( เทคโนโลยี Database ) โมเดลใหม่นี้ไม่เพียงแค่จะดึงศักยภาพของ AI Algorithm ออกมาเท่านั้น แต่จะไปถึงขั้นพัฒนา Search Engine ที่มีความยืดหยุ่นกว่า ซึ่งไม่ได้จำกัดการค้นหาการจับคู่ที่ตรงกันอย่าง Database ในโลกแบบเดิมต้องการการสะกดชื่อที่ถูกต้องหรือรหัสยืนยันที่ถูกต้อง แต่ Weaviate สามารถค้นหารายการที่คล้ายคลึงกันมากที่สุด ความคล้ายคลึงกันหมายความว่าอย่างไร นั่นยังคงเป็นคำถามเปิดกว้างสำหรับผู้ใช้หลาย ๆ คน ซึ่งส่วนใหญ่จะไปในทางกำหนดวิธีการคำนวณว่าข้อมูลในของสองชิ้น คิดออกมามีค่าใกล้หรือห่างกันเพียงใด การค้นหาค่ารายการที่ใกล้เคียงที่สุดใน Database สามารถทำได้โดย การหาตัวชี้วัดหรือวิธีการระบุความหมายของการอยู่ใกล้หรือไกลกัน โดยคิดมาจากหลาย ๆ Field และกำหนดโดย AI ยกตัวอย่างเช่น เราอยากเทียบว่า งูหลามกับงูเหลือมคล้ายกันยังไง เราก็เอาค่าต่าง ๆ เช่น ความยาวของงู ขนาดรอบวง สีของงู และแปลงค่าเฉดสี น้ำหนัก มาใส่ลงในแต่ละ Field และก็คำนวณ ว่ามันแตกต่างกันมากน้อยอย่างไร SeMI Technologies ซึ่งเป็นผู้ระดมทุนหลัก ในการที่พัฒนา Weaviate ซึ่งเป็น Database แบบ Open Source ที่เป็นระบบที่ใคร ๆ ก็สามารถมาช่วยพัฒนาได้ ไม่ได้มีใครเป็นเจ้าของ บริษัทต่าง ๆ สามารถดาวน์โหลด Code หรือซื้อ Weaviate ที่เป็นบริการ Outsource ก็ได้ โดยผู้ใช้ Weaviate หลายคนอาศัยแบบจำลองที่ Weaviate สร้างไว้ทั้งในภาษาอังกฤษและภาษาอื่น ๆ ที่เป็นที่นิยม มีแบบจำลองอันนึงที่สร้างขึ้นจากบทความ Wikipedia ทั้งหมดที่ SeMI ทำไว้และเปิดให้ผู้ที่สนใจก็สามารถเอาไปทดลองได้ และยังมีโมเดลที่สร้างไว้อีกจำนวนหนึ่งที่พร้อมใช้งานอย่างเช่น Haystack ของ Deepset (โมเดลที่สร้างเพื่อพัฒนาคอมพิวเตอร์เข้าใจภาษามนุษย์มากยิ่งขึ้น) ที่ใช้การค้นหาเชิงความหมาย – Semantic Search (ค้นหาผลโดยพิจารณาจากความตั้งใจในการค้นหา ไม่ใช่แค่คำหลัก) หรือการค้นหาเอกสารของ Jina.ai (เป็นโมเดลอีกอันที่พยายามให้ AI ช่วยเราค้นหาได้ดีขึ้นโดยใช้หลักการ Semantic Search) Database เวกเตอร์คืออะไร? กลไกหลักของ Weaviate จะสามารถทำงานกับชุดข้อมูลต่าง ๆ ได้แบบอิสระ จึงเป็นเหตุผลที่บางคนเรียกระบบเหล่านี้ว่า “Database เวกเตอร์” (คือไปได้ทุกทิศทาง) “การใช้งานส่วนใหญ่ยังคงอยู่ในแบบตัวอักษร” โดย Van Luijt กล่าวไว้ว่า “แต่สังเกตได้ว่ามีคนจำนวนมากขึ้นเรื่อย ๆ เริ่มเข้าใจและพูดว่า ‘โอ้โห ถ้าฉันสามารถค้นหาแบบนี้ได้ผ่านทางข้อความ ขอฉันลองใส่รูปภาพลงไปด้วยเถอะ’”Van Luijt บอกว่าหลังจากทดลองกับภาพและเสียง ผู้ใช้บางคนกำลังนำเข้าข้อมูลอื่น ๆ เช่นลำดับ DNA ข้อมูลสำรวจทางธรณีวิทยา การค้นหาเรื่อง Genome (จีโนม) เรื่อง DNA ถือเป็นเรื่องที่เหมาะมากกับเทคโนโลยีตัวนี้ เพราะมีงานวิจัยบอกว่าลำดับวงศ์ตระกูล สายพันธุ์บางอย่าง มันแค่คล้าย ๆ ไม่ได้ตรงกันเป๊ะ ๆ เทคโนโลยีอันนี้แหล่ะจะทำให้เหล่านักวิจัยสามารถติดตามการโยกย้ายของผู้คนผ่านเวลาและสถานที่ เป็นโอกาสที่เปิดทางให้เราศึกษาประวัติศาสตร์มนุษย์ผ่านข้อมูล DNA ตัวอย่างอื่น ๆ ผุดขึ้นมากมายเมื่อผู้ใช้จินตนาการถึงตัววัดความคล้ายคลึงกันใหม่ การทดลองเบื้องต้นอย่างหนึ่งคือการแบ่งพื้นผิวโลกออกเป็นสี่เหลี่ยมเล็ก ๆ และจัดระดับความไวต่อการเกิดน้ำท่วม พวกเขาหวังว่าจะสร้างโมเดลใหม่ที่จะเพิ่มความเสี่ยงด้านราคาประกัน แนะนำการลงทุนในระดับโลก หรือเรื่องภาวะโลกร้อน วิธีค้นหาที่แกร่งขึ้นเมื่อเจอชุดข้อมูลขนาดใหญ่ Van Luijt กล่าวว่าเครื่องมือค้นหาใหม่ของ Weaviate และ SeMI สร้างผลการหาที่เร็วและมีประสิทธิภาพมากขึ้นสำหรับชุดข้อมูลขนาดใหญ่ มันเหนือกว่า Database แบบเดิมที่เอา AI Algorithm มาใช้ บางคนจะใช้ Database สำหรับการค้นหาพื้นฐานแล้วส่งออกคำตอบที่เป็นไปได้เหล่านี้ไปยังโมเดล Machine Learning ให้มันเรียนรู้ เพื่อเลือกคำตอบที่ดีที่สุด “ถ้าคุณทำอย่างนั้นกับเอกสารเป็นพัน ๆ ชิ้น คุณก็จะสบาย และไม่สังเกตเห็นอะไรเลย” Van Luijt กล่าว “แต่คุณไม่สามารถค้นหา Database ทั้งหมดและทำงานอย่างเช่นการตอบคำถามภายในเวลาไม่กี่วินาทีได้แน่ ๆ” โอกาสที่เปิดกว้างแบบนี้ยิ่งขับเคลื่อนให้เกิดการทดลองและการลงทุน เมื่อสัปดาห์ที่แล้ว SeMI ปิดการระดมทุนได้ถึง 16 ล้านดอลลาร์ซึ่งนำโดย New Enterprise Associates (NEA) และ Cortical Ventures ในเดือนสิงหาคม 2020 Zetta Venture Partners เป็นผู้นำที่ได้เงินลงทุน 1.6 ล้านกับ ING Ventures “เราจับตาดูความก้าวหน้าของ Machine Learning และ AI อย่างใกล้ชิด รอทีมและผลิตภัณฑ์ที่เหมาะสมเพื่อคิดค้นวิธีการทำงานกับข้อมูล” Tony Florence ผู้จัดการหุ้นส่วนทั่วไปฝ่ายเทคโนโลยีของ NEA กล่าวในการแถลงข่าว “Database เวกเตอร์ของ Weaviate สามารถจัดการกับข้อมูลที่ไม่ได้มีโครงสร้างตายตัว ทั้งในข้อความ เสียง และรูปภาพได้ นี่เป็นการปลดล็อกไปสู่การใช้งานในเรื่องใหม่ ๆ ที่ทรงพลังเกินจินตนาการ” การประเมินสมรภูมิแข่งขัน การแข่งขันแตกต่างกันไปเนื่องจากมี Database เวกเตอร์ Open Source อื่น ๆ อีกหลายตัวที่มีคุณสมบัติคล้ายคลึงกัน อย่างเช่น Milvus เกิดจากโปรแกรมของ LF AI & Data Foundation ที่ฟูมฟักมาอย่างดีและยังสนับสนุนการค้นหาข้อมูลเพื่อหาผลลัพธ์ที่คล้ายคลึงกันได้ด้วย ส่วน Pinecone.io ที่ไปรวมกับ Kafka (ระบบซอฟท์แวร์ที่โดดเด่นเรื่องประมวลผล กระจายการคำนวณ) ของ Apache เด่นเรื่องการค้นหาข้อมูลสตรีมมิ่งที่คล้ายคลึงกัน และก็ยังมี Vespa...