สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

ความท้าทายในงานจดหมายเหตุเมื่อเข้าสู่ยุค Big Data: ตอนที่ 3 การใช้ประโยชน์ข้อมูลงานจดหมายเหตุ (Data Utilization)

Sep 6, 2023

ความท้าทายงานจดหมายเหตุเมื่อเข้าสู่ยุค Big Data
ตอนที่ 1. ความหมายของจดหมายเหตุ
ตอนที่ 2. การทำให้เป็นดิจิทัลของเอกสารจดหมายเหตุ
ตอนที่ 3. การใช้ประโยชน์ข้อมูลงานจดหมายเหตุ (ท่านกำลังอ่านบทความนี้)


จาก 4 ประเด็นความท้าทายในงานจดหมายเหตุ

  1. ข้อมูลมีความหลากหลายมากขึ้นในยุค Big Data
  2. หากต้องการใช้ข้อมูลเก่าในการวิเคราะห์ การแปลงข้อมูลให้อยู่ในรูปแบบดิจิทัล (Digitization) กับข้อมูลชุดนั้นจึงมีบทบาทที่สำคัญ
  3. ข้อมูลที่มีมากขึ้นในปัจจุบันทำให้เทคนิคในการหาข้อมูลเชิงลึก (Insights) และการจัดการเอกสารที่ซับซ้อนยิ่งขึ้นจึงเป็นเรื่องที่สำคัญ
  4. ข้อมูลมีบริบทที่หลากหลายทำให้คนที่ตีความข้อมูลและผลการวิเคราะห์ต้องมีความรู้รอบด้าน

ในบทความตอนที่ 2 ได้พูดถึงประเด็นความท้าทาย 2 ประเด็นแรกเป็นที่เรียบร้อยแล้ว ซึ่งเกี่ยวข้องกับการทำเอกสารให้อยู่รูปแบบดิจิทัล (Digitization) ซึ่งชี้ให้เห็นว่ากระบวนการทั้งระบบในการเก็บเอกสารให้อยู่ในรูปแบบดิจิทัลจะต้องทำอย่างไรบ้าง

บทความนี้จึงต้องการให้เห็นถึงการใช้ประโยชน์ข้อมูลจดหมายเหตุเป็นกรณีศึกษาทั้งในหอจดหมายเหตุและนอกหอจดหมายเหตุ ซึ่งสามารถปรับใช้ทฤษฎีทางจดหมายเหตุและการบริหารจัดการข้อมูลกับองค์กรได้ และความท้าทายอื่น ๆ ที่เกี่ยวข้องกับงานจดหมายเหตุที่ยังไม่ได้กล่าวถึงในบทความตอนที่ 2

ภาพรวมของเนื้อหา

การจัดการและหาข้อมูลเชิงลึกในเอกสารจดหมายเหตุในปัจจุบัน

เนื่องจากเอกสารจดหมายเหตุในปัจจุบันมีความหลากหลายและมีจำนวนที่มาก การเตรียมการทางสถาปัตยกรรมข้อมูลสำหรับเอกสารเหล่านี้จึงเป็นเรื่องที่สำคัญเป็นอย่างยิ่ง ซึ่งในบริบทของประเทศไทย ทางเราได้มีการจัดทำระเบียบวิธีวิจัยดังภาพที่ 1 ซึ่งสามารถแบ่งออกได้เป็น 2 ส่วนการวิจัย คือ

1. การสอบถามจากผู้ที่เกี่ยวข้องกับการค้นคว้าเอกสารจดหมายเหตุ จำนวน 9 คน

ซึ่งใช้วิธีการสุ่มโดยเผอิญ โดยวัตถุประสงค์ที่ใช้งานนั้นสามารถแบ่งออกมาได้เป็น 2 วัตถุประสงค์หลัก คือ เพื่อการวิจัยในทางสังคมศาสตร์และมนุษยศาสตร์ และ เพื่อนำไปใช้ในการวางนโยบายองค์กรของรัฐ

2. การอนุเคราะห์ข้อมูลจากผู้เชี่ยวชาญ จำนวน 10 คน

มาจากผู้เชี่ยวชาญจากสายงานต่าง ๆ ซึ่งมีการใช้ข้อมูลทางสังคมศาสตร์และจดหมายเหตุ จำนวน 10 คน โดยกระบวนการซึ่งได้มาด้วยข้อมูลนั้นมีวิธีที่แตกต่างกัน ทั้งการสัมภาษณ์ การขอข้อมูลและจัดบรรยายภาพรวมของวิชาจดหมายเหตุ

ภาพที่ 1 ระเบียบวิธีวิจัยในการสอบถามเกี่ยวกับงานทางจดหมายเหตุและการใช้บริการข้อมูลภาครัฐสำหรับงานทางสังคมศาสตร์และมนุษยศาสตร์

ความท้าทายในการเข้าถึงข้อมูลเพื่องานด้านสังคมศาสตร์และมนุษยศาสตร์

จากการให้ข้อมูลผ่านแบบสอบถามประกอบกับประสบการณ์การเข้าใช้ของผู้เขียน จึงสามารถประกอบออกมาเป็นความท้าทายออกมาได้ดังนี้

1. การรวบรวมฐานข้อมูลให้มีความสะดวกต่อการใช้งาน

ซึ่งฐานข้อมูลที่จัดเก็บเอกสารจดหมายเหตุมีอยู่หลายที่มาก การค้นคว้าเอกสารโดยไม่รู้แหล่งที่จัดเก็บจึงเป็นการลำบากในการเริ่มต้นการค้นคว้าดังกล่าว โดยความท้าทายที่เกิดขึ้น คือ การทำให้มีฐานบัญชีข้อมูลกลาง นับเป็นความท้าทายทั้งในด้านการบริหารจัดการภาครัฐและความท้าทายทางสถาปัตยกรรมอีกด้วย

2. การค้นหาเป็นไปด้วยความยากลำบาก

ซึ่งเทคโนโลยีการค้นหาที่ทำให้เจอได้ง่ายขึ้นตามบริบทจะมีพื้นฐานอยู่บนลักษณะข้อมูลที่เป็น Graph Network อาจทำให้ต้องมีการทำประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP) ในภาษาไทย (สร้าง AI เข้าใจภาษามนุษย์ด้วย Natural Language Processing สำหรับ NLP) ซึ่งมีความท้าทายเป็นอย่างมาก (บทความที่เกี่ยวข้องในเชิงไวยากรณ์ทางภาษาไทยเอง ซึ่งเป็นความท้าทายหลักในการพัฒนา NLP ภาษาไทย: ทำไม NLP ภาษาไทยถึงไม่โตสักที – Arnondora)

3. ข้อมูลมีขนาดที่ใหญ่มาก

เมื่ออ้างอิงจากสำนักหอจดหมายเหตุแห่งชาติ พบว่าเอกสารที่มีอยู่ในสำนักฯ มีอยู่จำนวนประมาณ 15 ล้านแผ่นสำหรับงานเอกสารลายลักษณ์ เอกสารเย็บเล่มประมาณ 1.5 ล้านแผ่น และยังมีเอกสารประเภทอื่นอีกจำนวนมาก1

นอกจากนี้ยังมีความท้าทายอื่น เช่น ข้อมูลในอินเทอร์เน็ต หรือ ข้อมูลจากฐานข้อมูลขององค์กรซึ่งเป็น Digital-born (ข้อมูลที่เป็นดิจิทัลมาตั้งแต่เริ่มต้น) ไม่ครอบคลุมเมื่อเทียบกับที่มีอยู่ในสถานที่จริง หรือ แม้แต่ความหลากหลายของชนิดเอกสารที่จัดเก็บซึ่งมีความท้าทายในกระบวนการ digitization, การจัดเก็บข้อมูลดิจิทัลเหล่านั้น และการเก็บรักษาเอกสารต้นฉบับให้คงอยู่ได้นานที่สุดอีกด้วย

ความท้าทายเชิงเทคนิคเพื่อสัมฤทธิ์ผลความต้องการของผู้ใช้

จากการอนุเคราะห์ข้อมูลและคำสัมภาษณ์ตามส่วนที่ 2 ที่ระบุในระเบียบวิธีวิจัย รวมถึงการศึกษางานวิจัยที่เกี่ยวข้องกับการจัดการข้อมูลจดหมายเหตุ พบว่าความท้าทายในเชิงเทคนิคสามารถแบ่งออกมาได้เป็น 3 รูปแบบ คือ

นับตั้งแต่ พ.ศ. 2550 (ค.ศ. 2007) เป็นต้นมา แนวคิดวิทยาการเปิดเผย (Open Science) ได้ถูกนำมาพูดถึงและปฏิบัติใช้ในวงการวิจัยและแพร่กระจายไปยังวงการอื่น ๆ รวมถึงการทำข้อมูลเปิดเผยอีกด้วย2 ซึ่งโครงสร้างและความเชื่อมโยงของแนวคิดวิทยาการเปิดเผยเป็นไปตามภาพที่ 2 โดยแนวคิดแกนหลักของวิทยาการเปิดเผยจะมีวัตถุประสงค์เพื่อเพิ่มความโปร่งใสในกระบวนการวิจัย นับตั้งแต่กระบวนการทำวิจัย การบริหารจัดการงานวิจัย ไปจนถึงการบริหารข้อมูลที่มาจากงานวิจัย3

ภาพที่ 2 โครงสร้างแนวความคิดที่เกี่ยวข้องกับวิทยาการเปิดเผย
อ้างอิง: Horizons No. 110, p.13

ในปัจจุบัน เนื่องจากข้อมูลนั้นเพิ่มขึ้นมาเป็นจำนวนมาก การบริหารจัดการข้อมูลเพื่อทำให้สามารถเพิ่มศักยภาพในการค้นพบความรู้ใหม่และนวัตกรรมเป็นสิ่งที่จำเป็นอย่างยิ่ง จึงทำให้ Wilkinson, et al. (2016)4 ได้สรุปหลักการพื้นฐานที่ทำให้การบริหารจัดการข้อมูลเป็นไปอย่างมีประสิทธิภาพ คือ Findable-Accessible-Interoperable-Reusable (FAIR Principles) ซึ่งเจาะจงไปที่ตัวข้อมูลและเมตาเดตาให้มีรายละเอียดอธิบายที่มากเพียงพอให้สามารถค้นหาได้ เปิดเผย และเป็นมาตรฐาน

Hawkins (2022) ได้ระบุว่าการทำให้ผู้ศึกษาวิจัยสามารถค้นคว้าข้อมูลในเชิงความหมาย (Semantic Search) สามารถยกระดับความเร็วในการค้นพบความรู้สู่การเป็นวิทยาการใหม่หรือแนวทางการศึกษาแบบใหม่ให้กับผู้ศึกษาวิจัยที่เกี่ยวข้องกับสาขาวิชานั้นมากขึ้น5 โดยพื้นฐานโครงสร้างหลักจะแบ่งออกเป็น 4 องค์ประกอบหลักดังภาพที่ 3 คือ โครงสร้างพื้นฐานทางข้อมูล (Data Infrastructure) ชั้นภววิทยา (Ontological Layer) ชั้นจัดการตรรกะ (Unifying Logic Layer) และชั้นพิสูจน์ข้อเท็จจริง (Proof Layer)6 โดยชั้นที่มีความท้าทายในการทำงานที่สุด คือ ชั้นจัดการตรรกะและชั้นพิสูจน์ข้อเท็จจริง

ภาพที่ 3 สถาปัตยกรรมเว็บไซต์เชิงความหมาย (Semantic Web Architecture)
ความซับซ้อนในการทำ Semantic web

การทำ Unifying Logic ใน Semantic Web อาศัยโครงสร้างการวางระบบตรรกะเป็นแบบจำลองทางคณิตศาสตร์ ซึ่งมีวิธีการในการอนุมานโดยอ้างอิงความน่าจะเป็นสูงสุดที่คำตอบที่ตอบคำถามนั้นสมเหตุสมผลที่สุด7 ผ่านกราฟความรู้ (Knowledge Graph) ซึ่งเชื่อมโยงระหว่างสิ่งที่ต้องการศึกษา8 ในปัจจุบันนี้ การทำงานดังกล่าวยังคงเป็นหัวข้อวิจัยที่ยังได้รับความสนใจเป็นอย่างมาก เช่น การประชุมวิชาการ Knowledge Discovery and Data Mining (KDD) มีผู้ส่งงานวิจัยในการประชุมปีละประมาณ 800-1,200 บทความ9 รวมทั้งส่วนที่สามารถวิจัยได้มีได้นับตั้งแต่ญาณวิทยา (Epistemology) คณิตตรรกศาสตร์ (Mathematical Logic) ไปจนถึงวิทยาการคอมพิวเตอร์ จึงเป็นหัวข้อที่นักวิจัยสนใจอย่างกว้างขวาง

การทำ Proof ใน Semantic Web ซึ่งหมายถึงการอธิบายเหตุผลที่มาที่ไปของการอนุมานจากส่วนที่ให้เหตุผลจากชั้น Unifying Logic แล้ว มีวิธีการทำอ้างอิงจาก Explainable Artificial Intelligence (XAI) โดยแบบจำลองที่เป็นยอดนิยม คือ SHAP และ LIME และยังมีความพยายามในการทำคำอธิบายในการอนุมานนั้นด้วยวิธีอื่น ๆ อีกด้วย เช่น Knowledge Matching ซึ่งเป็นการนำข้อมูลที่ Machine Learning Model สามารถทำนายได้มาจับคู่กับความรู้ที่มีอยู่ในโครงสร้างความรู้ หรือการอธิบายที่มีลักษณะมนุษย์เป็นศูนย์กลางมากขึ้น ซึ่งใช้แบบจำลองการประมวลผลภาษาธรรมชาติ (NLP)10

แต่อย่างไรนั้น การสร้างแพลตฟอร์มที่สามารถค้นหาบริบทอย่างชาญฉลาดดังที่กล่าวไว้ ข้อมูลเป็นสิ่งที่จำเป็น ซึ่งข้อมูลดังกล่าวมีความเป็นไปได้ทั้งเป็น Digital-born และ Non-digital-born Documents โดยจากที่พูดถึงในตอนที่ 2 เรื่อง Digitalization นั้นจะเห็นถึงปัญหาในการแกะตัวอักษรทั้งด้วยเทคโนโลยีและโบราณคดี หากสรุปโดยง่าย เราสามารถทำ Digitization ได้ด้วย OCR อย่างที่ผู้เขียนได้ทำไว้ในภาพที่ 4

ภาพที่ 4 กระบวนการภาพรวมในการทำ Optical Character Recognition ด้วยตนเอง ซึ่งยกตัวอย่างการดึงข้อมูลจากเอกสารราชกิจจานุเบกษาฉบับใหม่

ซึ่งหากยังไม่มีข้อมูลที่เพียงพอในการทำการวิเคราะห์ผล การทำให้มีข้อมูลอย่างเช่นการนำเข้าข้อมูลเอกสารจริงเป็นรูปแบบดิจิทัลเป็นปัจจัยที่จำเป็นอย่างยิ่ง

2. การสืบประวัติการแก้ไขของเอกสารทางกฎหมาย

นอกจากนี้แล้ว ประเด็นที่น่าสนใจอีกหนึ่งอย่างจากที่ได้ข้อมูลมาจากผู้เชี่ยวชาญ คือ การสืบประวัติการแก้ไขของเอกสารทางกฎหมาย ซึ่งมีลักษณะคล้ายกับ Git Version Control System โดยในเบื้องต้น การทำให้เห็นการชำระและปรับปรุงกฎหมายเป็นสิ่งที่รัฐหลายประเทศทำ เช่น สหราชอาณาจักร หรือ สหรัฐอเมริกาใน District of Columbia ซึ่งทำให้เห็นถึงการเปลี่ยนแปลงและตีความกฎหมายได้อย่างเป็นระบบมากยิ่งขึ้น ประการหนึ่ง คือ การทำให้เห็นเป็นที่ประจักษ์ว่าศัพท์ทางกฎหมายหนึ่ง ๆ มีบริบทความหมายว่าอย่างไร

3. การจัดการเอกสารจดหมายเหตุด้วยกฎเกณฑ์การจำแนกเอกสาร (Document Classification)

ในทางงานจัดการบันทึกเอกสารและจัดการจดหมายเหตุ กฎเกณฑ์การจำแนกเอกสารเป็นสิ่งที่จำเป็นอย่างยิ่งเพื่อทำให้ผู้ค้นคว้าสามารถหยิบหาได้ง่ายยิ่งขึ้นและเห็นภาพรวมของการจัดเก็บเอกสารยิ่งขึัน ซึ่งในงานจัดการบันทึกเอกสารและงานทางจดหมายเหตุจะมีหลักการคิดไม่เหมือนกันดังภาพที่ 5

ภาพที่ 5 รูปแบบการจัดการบันทึกเอกสารและงานทางจดหมายเหตุเมื่อเทียบกับธรรมชาติของข้อมูลในกระบวนการจัดการวงจรชีวิตข้อมูล (Data Lifecycle Management) ซึ่งพบว่าในงานทางการจัดการสารสนเทศจะมีอุปกรณ์ทั้งหมด 2 ชิ้น คือ File Plan และ General International Standard Archival Description (ISAD(G))

ซึ่งหลักการในการจัดการเอกสารบันทึกนั้นจะเน้นการใช้งานที่ทำให้องค์กร11 สะดวกในการทำงานตามภารกิจขององค์กรที่สุด โดยจะเริ่มแบ่งขั้นตอนตามหน้าที่ขององค์กร แล้วลงมาที่กิจกรรมซึ่งทำให้วัตถุบรรลุวัตถุจุดประสงค์นั้น โครงการ และชิ้นงานเอกสารตามลำดับ12 แต่หากพูดถึงมาตรฐาน ISAD(G)13 ซึ่งเป็นมาตรฐานในการจัดการเอกสารจดหมายเหตุหรือการจัดเก็บข้อมูลถาวร โจทย์ประธานของมาตรฐานนี้จึงเป็นวัตถุประสงค์ในการสืบสาวความเป็นมาและเหตุในการกระทำเชิงประวัติ การจัดมาตรฐานจึงจำเป็นต้องแบ่งตามหัวข้อที่ชี้ให้เห็นถึงเหตุการณ์สำคัญขององค์กร

อย่างไรก็ตาม Payne (2018)14 และนักวิจัยอื่น ๆ ที่เกี่ยวข้อง15 ได้เล็งเห็นถึงอิทธิพลสำคัญของขนาดของข้อมูลที่เพิ่มขึ้นมาอย่างมีนัยสำคัญ จึงทำให้เกิดวิทยาการใหม่อย่าง “วิทยาการจดหมายเหตุเชิงคำนวณ (Computational Archival Sciences)” ซึ่งเห็นว่าการนำวิทยาการคอมพิวเตอร์มาใช้ในการจัดการเอกสารจดหมายเหตุ ทั้งในมิติของการทำให้เห็นความสัมพันธ์ระหว่างมนุษย์ เทคโนโลยี และสังคม การเก็บรักษาเอกสารระยะยาว และประกอบสร้างซึ่งข้อเท็จจริงให้มีความคงเส้นคงวามากขึ้นผ่านเทคโนโลยี

ตัวอย่างหนึ่งที่ทำให้เห็นว่าบทบาทของแบบจำลองการเรียนรู้ของเครื่อง ซึ่ง Franks (2022)16 ได้ใช้แบบจำลองการเรียนรู้ 3 ประเภท คือ Machine Learning Model กับ TF-IDF ปกติ Neural Networks และ Language Model ในการคัดแยกหมวดหมู่ของเอกสารในองค์กร Australian Human Rights Commission ที่มีจำนวนบทความทั้งสิ้น 6,217 บทความใน 29 กลุ่มชุดของเอกสาร พบว่าความถูกต้องในการจัดหมวดหมู่เอกสารอยู่ที่ประมาณ 67-88% และมีความแม่นยำ 54-81% ซึ่งร้อยละจะแปรผันตามประเภทของแบบจำลองที่ใช้ การ Resampling จากความไม่สมดุลของจำนวนข้อมูลในแต่ละประเภท (Imbalanced Data) และจำนวนของข้อมูลในแต่ละประเภท

นอกจากนี้ เมื่อสามารถจัดหมวดหมู่ของเอกสารได้แล้ว แบบจำลองการเรียนรู้ของเครื่องอื่น ๆ ยังสามารถสร้างคำอธิบายให้กับคลังจดหมายเหตุ, การตอบคำถามจากสารานุกรม, และการสรุปสาระสังเขป โดย Generative AI อย่าง ChatGPT สามารถทำงานเหล่านี้ได้ หากมีการปรับปรุงแบบจำลองให้มีความจำเพาะกับบริบทที่สนใจ เช่น WangchanBERTa ซึ่งก็จะย้อนไปตอบคำถามในส่วนแรกที่เกี่ยวข้องกับการค้นหาข้อมูลเชิงความหมาย ทว่าแบบจำลองเหล่านี้ยังคงสร้างข้อมูลที่ไม่มีอยู่จริงและขัดแย้งกับข้อเท็จจริงที่มนุษย์ทราบ (Hallucination) และยังต้องใช้ทรัพยากรการคำนวณที่ค่อนข้างมาก จึงยังคงเป็นความท้าทายอยู่ในปัจจุบันนี้

การตีความผลการวิเคราะห์จากเอกสารจดหมายเหตุ

สามารถอ่านได้เพิ่มเติมที่ Critical Questions for Archives as (Big) Data (core.ac.uk)

หากเรามองว่าเอกสารจดหมายเหตุเป็นข้อมูลที่ถูกนำมาใช้ในการวิเคราะห์ได้นั้น การทำ data analytics สามารถกระทำได้โดยนักวิทยาศาสตร์ข้อมูลและผู้เชี่ยวชาญทางการคำนวณอื่น ๆ เพื่อแสดงให้เห็นถึงผลสัมฤทธิ์จากโจทย์ปัญหาโดยมีเอกสารจดหมายเหตุเป็นข้อมูลตัวตั้ง ชะรอยผู้เชี่ยวชาญเหล่านี้อาจไม่ได้มีความรู้ที่เกี่ยวข้องกับเอกสารsหรือโจทย์ที่เกี่ยวข้อง ซึ่งเป็นปกติในงานทางวิทยาศาสตร์ข้อมูลที่จะมีผู้เชี่ยวชาญด้านอื่น ๆ มาช่วยพิจารณาความสมเหตุสมผลในการวิเคราะห์ข้อมูลจากนักวิทยาศาสตร์ข้อมูล

การวิเคราะห์ข้อมูลตามโจทย์ปัญหาที่ตั้งไว้นับตั้งแต่กระบวนการคิดโจทย์ไปจนถึงกระบวนการตอบคำถามและอภิปรายผล ย่อมมีปรัชญาที่แทรกซึมอยู่ภายในปัญหาเหล่านั้นเสมอ หากได้เป็นตั้งแต่การวิเคราะห์ประวัติศาสตร์ ไปจนถึงการค้นหาความจริงของโลก ซึ่งเป็นสิ่งที่ ณ ปัจจุบันนี้ยังไม่สามารถนำปัญญาประดิษฐ์มาใช้ในการตอบคำถามได้ และยังเป็นที่ถกเถียงเสมอมาว่าคำตอบของปัญหาเหล่านั้นอาจไม่ได้มีลักษณะสัมบูรณ์ ความจำเป็นที่จะต้องเปิดเผยหลักคิดในการทำแบบจำลองหรือระเบียบวิธี (Algorithmic Transparency) จึงสำคัญเป็นอย่างมากในการใช้ประโยชน์ข้อมูลเอกสารจดหมายเหตุ

ยกตัวอย่างเช่น งานการออกแบบนโยบายสาธารณะที่อาจจำเป็นต้องวิเคราะห์จากเอกสารในอดีต ซึ่งก็มีทฤษฎีทางเศรษฐศาสตร์ที่สามารถกำหนดวัตถุประสงค์ของปัญหาที่นำไปสู่นโยบายสาธารณะนั้น ๆ ได้ หรือสำหรับในงานประวัติศาสตร์เชิงคำนวณ (Computational History) ก็ยังมีความจำเป็นที่จะต้องพึ่งพาข้อเสนอทางประวัติศาสตร์ที่นักประวัติศาสตร์เสนอต่อเหตุการณ์ที่สนใจอีกด้วย

ต่อจากนี้ เราจะมาแนะนำศาสตร์ที่สามารถนำเอกสารประวัติศาสตร์มาทำเป็นโครงการทางวิทยาศาสตร์ข้อมูลอย่าง มนุษยศาสตร์ดิจิทัล

เปลี่ยนมุมมองการศึกษามนุษยศาสตร์ด้วยมนุษยศาสตร์ดิจิทัล (Digital Humanities)

ภาพที่ 6 นักบุญทอมัส อไควนัส (St. Thoman Aquinas)
โจทย์ศึกษาแรกของมนุษยศาสตร์ดิจิทัล
ที่มา: http://www.nationalgallery.org.uk/paintings/carlo-crivelli-saint-thomas-aquinas

ในปี พ.ศ. 2489 (ค.ศ. 1946) Roberto Busa นักบวชชาวอิตาลี, Josephine Miles อาจารย์ภาควิชาภาษาอังกฤษในมหาวิทยาลัยแคลิฟอร์เนียเบิร์คลีย์ (University of California, Berkeley), และ IBM ได้ทำโครงการสรุปสารานุกรมการบริบทใช้คำ (Concordance) ของนักบุญทอมัส อไควนัสจากงานเขียนทั้งสิ้น 179 ชิ้น ซึ่งทำให้ได้จำนวนคำมาทั้งสิ้น 10,631,980 คำ แบ่งหนังสือได้เป็น 56 เล่ม รวมสุทธิประมาณ 70,000 หน้า ซึ่งเผยแพร่ในชุดหนังสือ Index Thomisticus โดยสมบูรณ์ในปี 1980

นับตั้งแต่คริสต์ทศวรรษ 1960 การเข้ามาของเทคโนโลยีการคำนวณอย่างคอมพิวเตอร์อิเล็กทรอนิกส์ได้เข้ามาสู่มนุษยชาติทำให้เกิดการสร้างกลุ่มวิจัยที่เกี่ยวข้องกับการประยุกต์ใช้คอมพิวเตอร์อิเล็กทรอนิกส์กับงานทางมนุษยศาสตร์ ทั้งในโบราณคดี ภาษาศาสตร์ จนกลายเป็นวิชามนุษยศาสตร์ดิจิทัลในที่สุด โดยมนุษยศาสตร์ดิจิทัลนั้นสามารถแบ่งออกมาได้จากวัตถุประสงค์ของโครงการเป็นหลายรูปแบบ เช่น

1. เพื่อทำให้เห็นภาพรวมขององค์ประธานที่สนใจ (Data visualization)

ภาพที่ 7 Arts & Culture Experiments – Experiments with Google

การทำให้เห็นภาพเป็นสิ่งหนึ่งที่มนุษยศาสตร์ดิจิทัลสนใจ ซึ่งทำให้มนุษย์เห็นความเชื่อมโยงของข้อมูลได้มากขึ้น หรือ สามารถสรุปงานที่เกี่ยวข้องกับองค์ประธานที่กำลังศึกษาค้นคว้า ซึ่งอาจมีข้อมูลที่มากและซับซ้อนจนมนุษย์ไม่สามารถทำความเข้าใจได้

2. ใช้เป็นเครื่องมือในการคำนวณและประมวลผล

ภาพที่ 8 การทำโฟโตแกรมเมทรี (Photogrammetry) กับอุโบสถวัดหาดเสี้ยว
ที่มา: เพจคิดอย่าง – อุโบสถ วัดหาดเสี้ยว อำเภอศรีสัชนาลัย จังหวัดสุโขทัย

การมีเทคโนโลยีดิจิทัลทำให้งานค้นคว้าทางโบราณคดีอย่าง เช่น การดูแลบูรณปฏิสังขรณ์วัดหาดเสี้ยว อำเภอศรีสัชนาลัย จังหวัดสุโขทัย ซึ่งเป็นโบราณสถานอายุประมาณ 200 ปี จึงทำการถ่ายรูปเป็นโมเดล 3 มิติเพื่อให้การบูรณปฏิสังขรณ์เป็นไปในแนวทางอนุรักษ์มากที่สุด โดยทำให้โบราณสถานนั้นเสียหายให้น้อยที่สุดดังภาพที่ 8

นอกจากนี้ งานที่เกริ่นไว้ข้างต้นอย่าง Index Thomisticus ก็จัดอยู่ประเภทนี้เช่นกัน

ทั้งหมดนี้จะพบว่าความท้าทายที่เกิดขึ้นในงานจดหมายเหตุไม่ได้มีแต่ความท้าทายที่เกิดขึ้นในเชิงเทคนิคทางวิทยาศาสตร์ข้อมูลเท่านั้น แต่ยังมีความท้าทายที่เกิดขึ้นในเชิงประวัติศาสตร์เรื่องการตีความ การประเมินคุณค่าของเอกสาร และการบำรุงรักษาเอกสารให้อยู่ในสภาพที่สมบูรณ์ที่สุด ซึ่งต้องพึ่งพิงความเชี่ยวชาญจากผู้เชี่ยวชาญที่เกี่ยวข้องกับเอกสารและวิทยาการที่เกี่ยวข้องอีกด้วย


เชิงอรรถ

  1. หอจดหมายเหตุแห่งชาติ (ม.ม.ป.), สรุปยอดปริมาณเอกสารในคลังเก็บเอกสาร, สามารถเข้าถึงได้ที่ https://www.nat.go.th/บริการ/เอกสารจดหมายเหตุที่ให้บริการ ↩︎
  2. Swiss National Science Foundation – Swiss Academies (2016), Unleashing Science, Horizons No. 110, p.12, สามารถเข้าถึงได้ที่: https://www.horizons-mag.ch/wp-content/uploads/sites/3/2017/11/SNF_horizons_110_September_EN.pdf ↩︎
  3. United Nations Educational, Scientific and Cultural Organization (2022), Understanding open science, สามารถเข้าถึงได้ที่: https://unesdoc.unesco.org/ark:/48223/pf0000383323 ↩︎
  4. Mark D. Wilkinson et al. (2016), Comment: The FAIR Guiding Principles for scientific data management and stewardship, Scientific Data 3 (160018), pp. 1-9. สามารถเข้าถึงได้ที่: https://www.nature.com/articles/sdata201618 ↩︎
  5. Ashleigh Hawkins (2022), Archives, linked data and the digital humanities: increasing access to digitised and born-digital archives via the semantic web, Archival Science, 22, pp. 319-344. สามารถเข้าถึงได้ที่: https://doi.org/10.1007/s10502-021-09381-0 ↩︎
  6. Marek Obitko (2007), Semantic Web Architecture, สามารถเข้าถึงได้ที่: https://www.obitko.com/tutorials/ontologies-semantic-web/semantic-web-architecture.html ↩︎
  7. Pedro Domingos, Daniel Lowd (2019), Unifying Logical and Statistical AI, Communications of the ACM 62 (7), สามารถเข้าถึงได้ที่: https://doi.org/10.1145/3241978 ↩︎
  8. Xiaodan Liang, Zhiting Hu, Hao Zhang, Liang Lin, Eric P. Xing (2018), Symbolic Graph Reasoning Meets Convolutions, 32nd Conference on Neural Information Processing Systems (NeurIPS 2018). สามารถเข้าถึงได้ที่: https://proceedings.neurips.cc/paper_files/paper/2018/file/cbb6a3b884f4f88b3a8e3d44c636cbd8-Paper.pdf ↩︎
  9. Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, https://dl.acm.org/doi/proceedings/10.1145/3580305 ↩︎
  10. Arne Seeliger, Matthias Pfaff, and Helmut Krcmar (2019), Semantic Web Technologies for Explainable Machine Learning Models: A Literature Review, สามารถเข้าถึงได้ที่: https://ceur-ws.org/Vol-2465/semex_paper1.pdf ↩︎
  11. หมายเหตุ: องค์กรในที่นี้ หมายถึง Organization ซึ่งกล่าวถึงสิ่งที่มนุษย์สร้างขึ้นที่มีระบบจัดการและหน้าที่ในแต่ละส่วนอย่างชัดเจน นิยามนี้จึงกว้างกว่าองค์กรทางธุรกิจ ชีวิตส่วนบุคคลของคนหนึ่ง ๆ ก็สามารถเป็นองค์กรได้เช่นกัน ↩︎
  12. File Plan Creation | Privacy | The University of Winnipeg (uwinnipeg.ca) ↩︎
  13. ISAD(G): General International Standard Archival Description – Second edition | International Council on Archives (ica.org) ↩︎
  14. Nathaniel Payne (2018), Stirring The Cauldron: Redefining Computational Archival Science (CAS) For The Big Data Domain, 2018 IEEE International Conference on Big Data, สามารถเข้าถึงได้ที่: https://doi.org/10.1109/BigData.2018.8622594 ↩︎
  15. Eirini Goudarouli (2018), Computational archival science: automating the archive, The National Archives Blog, สามารถเข้าถึงได้ที่: https://blog.nationalarchives.gov.uk/computational-archival-science-automating-archive/ ↩︎
  16. Jason Franks (2022), Text Classification for Records Management, ACM Journal on Computing and Cultural Heritage 15 (3), สามารถเข้าถึงได้ที่: https://doi.org/10.1145/3485846 ↩︎

เรียบเรียงโดย กฤตพัฒน์ รัตนภูผา
ตรวจทานและปรับปรุงโดย นววิทย์ พงศ์อนันต์

Kittapat Ratanaphupha

Data Scientist at Big Data Institute (Public Organization), BDI

Navavit Ponganan

Editor-in-Chief and Senior Data Scientist at Big Data Institute (Public Organization), BDI