ความท้าทายงานจดหมายเหตุเมื่อเข้าสู่ยุค Big Dataตอนที่ 1. ความหมายของจดหมายเหตุตอนที่ 2. การทำให้เป็นดิจิทัลของเอกสารจดหมายเหตุตอนที่ 3. การใช้ประโยชน์ข้อมูลงานจดหมายเหตุ (ท่านกำลังอ่านบทความนี้) จาก 4 ประเด็นความท้าทายในงานจดหมายเหตุ ในบทความตอนที่ 2 ได้พูดถึงประเด็นความท้าทาย 2 ประเด็นแรกเป็นที่เรียบร้อยแล้ว ซึ่งเกี่ยวข้องกับการทำเอกสารให้อยู่รูปแบบดิจิทัล (Digitization) ซึ่งชี้ให้เห็นว่ากระบวนการทั้งระบบในการเก็บเอกสารให้อยู่ในรูปแบบดิจิทัลจะต้องทำอย่างไรบ้าง บทความนี้จึงต้องการให้เห็นถึงการใช้ประโยชน์ข้อมูลจดหมายเหตุเป็นกรณีศึกษาทั้งในหอจดหมายเหตุและนอกหอจดหมายเหตุ ซึ่งสามารถปรับใช้ทฤษฎีทางจดหมายเหตุและการบริหารจัดการข้อมูลกับองค์กรได้ และความท้าทายอื่น ๆ ที่เกี่ยวข้องกับงานจดหมายเหตุที่ยังไม่ได้กล่าวถึงในบทความตอนที่ 2 การจัดการและหาข้อมูลเชิงลึกในเอกสารจดหมายเหตุในปัจจุบัน เนื่องจากเอกสารจดหมายเหตุในปัจจุบันมีความหลากหลายและมีจำนวนที่มาก การเตรียมการทางสถาปัตยกรรมข้อมูลสำหรับเอกสารเหล่านี้จึงเป็นเรื่องที่สำคัญเป็นอย่างยิ่ง ซึ่งในบริบทของประเทศไทย ทางเราได้มีการจัดทำระเบียบวิธีวิจัยดังภาพที่ 1 ซึ่งสามารถแบ่งออกได้เป็น 2 ส่วนการวิจัย คือ ความท้าทายในการเข้าถึงข้อมูลเพื่องานด้านสังคมศาสตร์และมนุษยศาสตร์ จากการให้ข้อมูลผ่านแบบสอบถามประกอบกับประสบการณ์การเข้าใช้ของผู้เขียน จึงสามารถประกอบออกมาเป็นความท้าทายออกมาได้ดังนี้ นอกจากนี้ยังมีความท้าทายอื่น เช่น ข้อมูลในอินเทอร์เน็ต หรือ ข้อมูลจากฐานข้อมูลขององค์กรซึ่งเป็น Digital-born (ข้อมูลที่เป็นดิจิทัลมาตั้งแต่เริ่มต้น) ไม่ครอบคลุมเมื่อเทียบกับที่มีอยู่ในสถานที่จริง หรือ แม้แต่ความหลากหลายของชนิดเอกสารที่จัดเก็บซึ่งมีความท้าทายในกระบวนการ digitization, การจัดเก็บข้อมูลดิจิทัลเหล่านั้น และการเก็บรักษาเอกสารต้นฉบับให้คงอยู่ได้นานที่สุดอีกด้วย ความท้าทายเชิงเทคนิคเพื่อสัมฤทธิ์ผลความต้องการของผู้ใช้ จากการอนุเคราะห์ข้อมูลและคำสัมภาษณ์ตามส่วนที่ 2 ที่ระบุในระเบียบวิธีวิจัย รวมถึงการศึกษางานวิจัยที่เกี่ยวข้องกับการจัดการข้อมูลจดหมายเหตุ พบว่าความท้าทายในเชิงเทคนิคสามารถแบ่งออกมาได้เป็น 3 รูปแบบ คือ 1. การค้นหาเอกสารด้วยเนื้อหาและความหมายภายในเอกสารนั้น (Semantic Search) นับตั้งแต่ พ.ศ. 2550 (ค.ศ. 2007) เป็นต้นมา แนวคิดวิทยาการเปิดเผย (Open Science) ได้ถูกนำมาพูดถึงและปฏิบัติใช้ในวงการวิจัยและแพร่กระจายไปยังวงการอื่น ๆ รวมถึงการทำข้อมูลเปิดเผยอีกด้วย ซึ่งโครงสร้างและความเชื่อมโยงของแนวคิดวิทยาการเปิดเผยเป็นไปตามภาพที่ 2 โดยแนวคิดแกนหลักของวิทยาการเปิดเผยจะมีวัตถุประสงค์เพื่อเพิ่มความโปร่งใสในกระบวนการวิจัย นับตั้งแต่กระบวนการทำวิจัย การบริหารจัดการงานวิจัย ไปจนถึงการบริหารข้อมูลที่มาจากงานวิจัย ในปัจจุบัน เนื่องจากข้อมูลนั้นเพิ่มขึ้นมาเป็นจำนวนมาก การบริหารจัดการข้อมูลเพื่อทำให้สามารถเพิ่มศักยภาพในการค้นพบความรู้ใหม่และนวัตกรรมเป็นสิ่งที่จำเป็นอย่างยิ่ง จึงทำให้ Wilkinson, et al. (2016) ได้สรุปหลักการพื้นฐานที่ทำให้การบริหารจัดการข้อมูลเป็นไปอย่างมีประสิทธิภาพ คือ Findable-Accessible-Interoperable-Reusable (FAIR Principles) ซึ่งเจาะจงไปที่ตัวข้อมูลและเมตาเดตาให้มีรายละเอียดอธิบายที่มากเพียงพอให้สามารถค้นหาได้ เปิดเผย และเป็นมาตรฐาน Hawkins (2022) ได้ระบุว่าการทำให้ผู้ศึกษาวิจัยสามารถค้นคว้าข้อมูลในเชิงความหมาย (Semantic Search) สามารถยกระดับความเร็วในการค้นพบความรู้สู่การเป็นวิทยาการใหม่หรือแนวทางการศึกษาแบบใหม่ให้กับผู้ศึกษาวิจัยที่เกี่ยวข้องกับสาขาวิชานั้นมากขึ้น โดยพื้นฐานโครงสร้างหลักจะแบ่งออกเป็น 4 องค์ประกอบหลักดังภาพที่ 3 คือ โครงสร้างพื้นฐานทางข้อมูล (Data Infrastructure) ชั้นภววิทยา (Ontological Layer) ชั้นจัดการตรรกะ (Unifying Logic Layer) และชั้นพิสูจน์ข้อเท็จจริง (Proof Layer) โดยชั้นที่มีความท้าทายในการทำงานที่สุด คือ ชั้นจัดการตรรกะและชั้นพิสูจน์ข้อเท็จจริง แต่อย่างไรนั้น การสร้างแพลตฟอร์มที่สามารถค้นหาบริบทอย่างชาญฉลาดดังที่กล่าวไว้ ข้อมูลเป็นสิ่งที่จำเป็น ซึ่งข้อมูลดังกล่าวมีความเป็นไปได้ทั้งเป็น Digital-born และ Non-digital-born Documents โดยจากที่พูดถึงในตอนที่ 2 เรื่อง Digitalization นั้นจะเห็นถึงปัญหาในการแกะตัวอักษรทั้งด้วยเทคโนโลยีและโบราณคดี หากสรุปโดยง่าย เราสามารถทำ Digitization ได้ด้วย OCR อย่างที่ผู้เขียนได้ทำไว้ในภาพที่ 4 ซึ่งหากยังไม่มีข้อมูลที่เพียงพอในการทำการวิเคราะห์ผล การทำให้มีข้อมูลอย่างเช่นการนำเข้าข้อมูลเอกสารจริงเป็นรูปแบบดิจิทัลเป็นปัจจัยที่จำเป็นอย่างยิ่ง 2. การสืบประวัติการแก้ไขของเอกสารทางกฎหมาย นอกจากนี้แล้ว ประเด็นที่น่าสนใจอีกหนึ่งอย่างจากที่ได้ข้อมูลมาจากผู้เชี่ยวชาญ คือ การสืบประวัติการแก้ไขของเอกสารทางกฎหมาย ซึ่งมีลักษณะคล้ายกับ Git Version Control System โดยในเบื้องต้น การทำให้เห็นการชำระและปรับปรุงกฎหมายเป็นสิ่งที่รัฐหลายประเทศทำ เช่น สหราชอาณาจักร หรือ สหรัฐอเมริกาใน District of Columbia ซึ่งทำให้เห็นถึงการเปลี่ยนแปลงและตีความกฎหมายได้อย่างเป็นระบบมากยิ่งขึ้น ประการหนึ่ง คือ การทำให้เห็นเป็นที่ประจักษ์ว่าศัพท์ทางกฎหมายหนึ่ง ๆ มีบริบทความหมายว่าอย่างไร 3. การจัดการเอกสารจดหมายเหตุด้วยกฎเกณฑ์การจำแนกเอกสาร (Document Classification) ในทางงานจัดการบันทึกเอกสารและจัดการจดหมายเหตุ กฎเกณฑ์การจำแนกเอกสารเป็นสิ่งที่จำเป็นอย่างยิ่งเพื่อทำให้ผู้ค้นคว้าสามารถหยิบหาได้ง่ายยิ่งขึ้นและเห็นภาพรวมของการจัดเก็บเอกสารยิ่งขึัน ซึ่งในงานจัดการบันทึกเอกสารและงานทางจดหมายเหตุจะมีหลักการคิดไม่เหมือนกันดังภาพที่ 5 ซึ่งหลักการในการจัดการเอกสารบันทึกนั้นจะเน้นการใช้งานที่ทำให้องค์กร สะดวกในการทำงานตามภารกิจขององค์กรที่สุด โดยจะเริ่มแบ่งขั้นตอนตามหน้าที่ขององค์กร แล้วลงมาที่กิจกรรมซึ่งทำให้วัตถุบรรลุวัตถุจุดประสงค์นั้น โครงการ และชิ้นงานเอกสารตามลำดับ แต่หากพูดถึงมาตรฐาน ISAD(G) ซึ่งเป็นมาตรฐานในการจัดการเอกสารจดหมายเหตุหรือการจัดเก็บข้อมูลถาวร โจทย์ประธานของมาตรฐานนี้จึงเป็นวัตถุประสงค์ในการสืบสาวความเป็นมาและเหตุในการกระทำเชิงประวัติ การจัดมาตรฐานจึงจำเป็นต้องแบ่งตามหัวข้อที่ชี้ให้เห็นถึงเหตุการณ์สำคัญขององค์กร อย่างไรก็ตาม Payne (2018) และนักวิจัยอื่น ๆ ที่เกี่ยวข้อง ได้เล็งเห็นถึงอิทธิพลสำคัญของขนาดของข้อมูลที่เพิ่มขึ้นมาอย่างมีนัยสำคัญ จึงทำให้เกิดวิทยาการใหม่อย่าง “วิทยาการจดหมายเหตุเชิงคำนวณ (Computational Archival Sciences)” ซึ่งเห็นว่าการนำวิทยาการคอมพิวเตอร์มาใช้ในการจัดการเอกสารจดหมายเหตุ ทั้งในมิติของการทำให้เห็นความสัมพันธ์ระหว่างมนุษย์ เทคโนโลยี และสังคม การเก็บรักษาเอกสารระยะยาว และประกอบสร้างซึ่งข้อเท็จจริงให้มีความคงเส้นคงวามากขึ้นผ่านเทคโนโลยี ตัวอย่างหนึ่งที่ทำให้เห็นว่าบทบาทของแบบจำลองการเรียนรู้ของเครื่อง ซึ่ง Franks (2022) ได้ใช้แบบจำลองการเรียนรู้ 3 ประเภท คือ Machine Learning Model กับ TF-IDF ปกติ Neural Networks และ Language Model ในการคัดแยกหมวดหมู่ของเอกสารในองค์กร Australian Human Rights Commission ที่มีจำนวนบทความทั้งสิ้น 6,217 บทความใน 29 กลุ่มชุดของเอกสาร พบว่าความถูกต้องในการจัดหมวดหมู่เอกสารอยู่ที่ประมาณ 67-88% และมีความแม่นยำ 54-81% ซึ่งร้อยละจะแปรผันตามประเภทของแบบจำลองที่ใช้ การ Resampling จากความไม่สมดุลของจำนวนข้อมูลในแต่ละประเภท (Imbalanced Data) และจำนวนของข้อมูลในแต่ละประเภท นอกจากนี้ เมื่อสามารถจัดหมวดหมู่ของเอกสารได้แล้ว แบบจำลองการเรียนรู้ของเครื่องอื่น ๆ ยังสามารถสร้างคำอธิบายให้กับคลังจดหมายเหตุ, การตอบคำถามจากสารานุกรม, และการสรุปสาระสังเขป โดย Generative AI อย่าง ChatGPT สามารถทำงานเหล่านี้ได้ หากมีการปรับปรุงแบบจำลองให้มีความจำเพาะกับบริบทที่สนใจ เช่น WangchanBERTa ซึ่งก็จะย้อนไปตอบคำถามในส่วนแรกที่เกี่ยวข้องกับการค้นหาข้อมูลเชิงความหมาย ทว่าแบบจำลองเหล่านี้ยังคงสร้างข้อมูลที่ไม่มีอยู่จริงและขัดแย้งกับข้อเท็จจริงที่มนุษย์ทราบ (Hallucination) และยังต้องใช้ทรัพยากรการคำนวณที่ค่อนข้างมาก จึงยังคงเป็นความท้าทายอยู่ในปัจจุบันนี้ การตีความผลการวิเคราะห์จากเอกสารจดหมายเหตุ สามารถอ่านได้เพิ่มเติมที่ Critical Questions for Archives as (Big) Data (core.ac.uk) หากเรามองว่าเอกสารจดหมายเหตุเป็นข้อมูลที่ถูกนำมาใช้ในการวิเคราะห์ได้นั้น การทำ data analytics สามารถกระทำได้โดยนักวิทยาศาสตร์ข้อมูลและผู้เชี่ยวชาญทางการคำนวณอื่น ๆ เพื่อแสดงให้เห็นถึงผลสัมฤทธิ์จากโจทย์ปัญหาโดยมีเอกสารจดหมายเหตุเป็นข้อมูลตัวตั้ง ชะรอยผู้เชี่ยวชาญเหล่านี้อาจไม่ได้มีความรู้ที่เกี่ยวข้องกับเอกสารsหรือโจทย์ที่เกี่ยวข้อง ซึ่งเป็นปกติในงานทางวิทยาศาสตร์ข้อมูลที่จะมีผู้เชี่ยวชาญด้านอื่น ๆ มาช่วยพิจารณาความสมเหตุสมผลในการวิเคราะห์ข้อมูลจากนักวิทยาศาสตร์ข้อมูล การวิเคราะห์ข้อมูลตามโจทย์ปัญหาที่ตั้งไว้นับตั้งแต่กระบวนการคิดโจทย์ไปจนถึงกระบวนการตอบคำถามและอภิปรายผล ย่อมมีปรัชญาที่แทรกซึมอยู่ภายในปัญหาเหล่านั้นเสมอ หากได้เป็นตั้งแต่การวิเคราะห์ประวัติศาสตร์ ไปจนถึงการค้นหาความจริงของโลก ซึ่งเป็นสิ่งที่ ณ...