ความท้าทายงานจดหมายเหตุเมื่อเข้าสู่ยุค Big Dataตอนที่ 1. ความหมายของจดหมายเหตุตอนที่ 2. การทำให้เป็นดิจิทัลของเอกสารจดหมายเหตุ (ท่านกำลังอ่านบทความนี้)ตอนที่ 3. การใช้ประโยชน์ข้อมูลงานจดหมายเหตุ ก่อนหน้านี้ในบทความ งาน “จดหมายเหตุ” ความท้าทายเมื่อเข้าสู่ยุค Big Data เราได้รู้จักคำจำกัดความของงาน “จดหมายเหตุ” และการคัดแยกระหว่างสิ่งที่เป็นเอกสารจดหมายเหตุและสิ่งที่ไม่ใช่เอกสารจดหมายเหตุ ซึ่งจะเห็นได้ว่ารูปแบบของเอกสารจดหมายเหตุเปลี่ยนไปตามกาลเวลาดังภาพที่ 1 การจัดการเอกสารจดหมายเหตุในปัจจุบันสมัยจึงเป็นสิ่งที่ท้าทายมากยิ่งขึ้นทั้งในปัจจัยทางรูปแบบเอกสารและปัจจัยทางการวิเคราะห์ข้อมูล ซึ่งในบทความนี้จะแบ่งความท้าทายในงานจดหมายเหตุออกเป็น 4 ประเด็นดังนี้ โดยบทความนี้จะพูดถึงในสองหัวข้อแรกก่อน ซึ่งเกี่ยวข้องกับส่วนของการแปลงข้อมูลให้อยู่ในรูปแบบดิจิทัล (Digitalization) ข้อมูลที่หลากหลายมากขึ้นในยุค Big Data ด้วยความที่หลักฐานทางประวัติศาสตร์สามารถเป็นเอกสารจดหมายเหตุได้ โดยขึ้นอยู่การจัดการเก็บรวบรวมของเอกสารหรือวัสดุนั้น ๆ หากหลักฐานทางประวัติศาสตร์นั้นได้ถูกจัดเก็บและได้ทำบัญชีแล้ว หลักฐานทางประวัติศาสตร์นั้นจะนับเป็นเอกสารจดหมายเหตุตามนิยามของเอกสารจดหมายเหตุ ฉะนั้นการพิจารณารูปแบบของเอกสารจดหมายเหตุจึงสามารถทำได้เหมือนกับ “หลักฐานทางประวัติศาสตร์” เอกสารจดหมายเหตุสามารถเป็นได้ทั้งในรูปแบบที่เป็นลายลักษณ์อักษรและไม่ใช่ลายลักษณ์อักษร โดยผันแปรไปตามเทคโนโลยี ซึ่งในปัจจุบัน รูปแบบการจัดเก็บของเอกสาร มีความซับซ้อนยิ่งขึ้นตามเทคโนโลยี เอกสารจดหมายเหตุนั้นสามารถอยู่ทั้งในรูปแบบดิจิทัลและรูปแบบไม่เป็นดิจิทัล ซึ่งสามารถแบ่งออกมาได้เป็นดังภาพที่ 2 การคัดแยกเอกสารที่สามารถเป็นจดหมายเหตุได้ว่าเป็น Digital-born จะสามารถคัดแยกได้จากความจำเป็นในการทำ Digitization ต่อเอกสารนั้น ๆ หากต้องการให้คอมพิวเตอร์สามารถอ่านได้ หากเอกสารนั้นไม่มีความจำเป็นในการทำ Digitization จะนับว่าเอกสารที่เป็น Digital-born ว่าด้วยรูปแบบเอกสาร Digital-born และโครงการที่เกี่ยวข้อง เอกสารที่เป็น Digital-born จะกล่าวถึงเอกสารที่สร้างขึ้นจากคอมพิวเตอร์ โดยไม่ได้เกิดจากกระบวนการ Digitization โดยตัวอย่างเอกสาร Digital-born จะเป็นไปดังภาพที่ 3 การแบ่งรูปแบบเอกสาร Digital-born นี้มีความแตกต่างในการจัดเก็บข้อมูล อย่างข้อมูลเว็บไซต์อาจต้องเก็บข้อมูลให้ยังสามารถเข้าถึงผ่านเว็บเบราว์เซอร์ได้ในปัจจุบัน โดยมีเซิร์ฟเวอร์ที่สามารถโฮสต์เว็บนั้นได้อยู่ ข้อมูลที่เกี่ยวข้องกับ e-Service อาจสามารถเก็บอยู่ภายใต้ Relational Database, ข้อมูลสถิติอาจปล่อยเป็นรูปแบบหน้า View ซึ่งให้เข้าถึงผ่าน API ได้ หรือข้อมูลประเภทอื่น ๆ ซึ่งวิธีการเก็บข้อมูลต่าง ๆ จะใช้สถาปัตยกรรมข้อมูลที่แตกต่างกันขึ้นกับข้อมูลนั้น ๆ ความท้าทายแรกที่ว่านี้จึงเป็นส่วนของการวางสถาปัตยกรรมข้อมูลและการวางนโยบายธรรมาภิบาลข้อมูลขององค์กร ซึ่งโครงการธรรมาภิบาลข้อมูลจากแต่ละประเภทข้อมูลที่ได้ยกตัวอย่างมาอาจยกตัวอย่างได้ 2 กรณี คือ แต่ถ้าหากว่าเราสนใจเอกสารที่ไม่เป็น Digital-born ความท้าทายที่เกิดขึ้นจะเป็นอีกรูปแบบหนึ่ง ซึ่งเจาะจงไปที่การทำให้อยู่ในรูปแบบดิจิทัลของเอกสารนั้น ๆ โดยจะกล่าวถึงในหัวข้อถัดไป กระบวนการ Digitization ในเอกสารจดหมายเหตุ การทำ Digitization เบื้องต้นในเอกสารจดหมายเหตุจะสามารถแบ่งขั้นตอนได้ออกมาเป็น 4 ขั้นตอนหลักดังภาพที่ 4 ซึ่งกระบวนการที่มีความแตกต่าง คือ กระบวนการที่ 1 ในการสแกนเอกสารซึ่งใช้อุปกรณ์และเทคนิคที่แตกต่างกันตามชนิดเอกสารนั้น ๆ และกระบวนการที่ 3 ที่จะทำการดึงสารสนเทศของเอกสาร (Information Retrieval) นั้นออกมา เช่น เอกสารลายลักษณ์ สามารถใช้เทคนิค Optical Character Recognition (OCR) ในดึงข้อความจากเอกสาร หรือ เอกสารจำพวกเสียง อาจนำเทคนิคที่เกี่ยวกับ Speech-to-text มาแปลงเป็นรูปคำที่กล่าวออกมาในไฟล์เสียงนั้น ๆ ได้อีกด้วย ทว่าในบางครั้ง ความแม่นยำในการดึงสารสนเทศออกมาจากเอกสารเหล่านั้นอาจมีไม่สูงนัก เนื่องจากข้อจำกัดทางอุปกรณ์และอัลกอริทึมที่ใช้ในการดึงข้อมูล โดยในที่นี้เราจะยกตัวอย่างเป็นเอกสารลายลักษณ์ที่ปรากฏอยู่ในประวัติศาสตร์ไทย Digitization งานเอกสารลายลักษณ์ภาษาไทย ในบริบทของภาษาไทย การปฏิรูปอักขระไทยมีส่วนสำคัญในการประเมินความสะดวกในการทำ digitization โดยการปฏิรูปอักขระไทยเกิดขึ้นในสมัยรัชกาลที่ 3 จากใบประกาศห้ามสูบฝิ่นและเอกสารไวยากรณ์ไทย และมีแบบอักขระในการจัดพิมพ์ที่เหมาะสมกับการพิมพ์เอกสารด้วยแท่นเดิม ซึ่งเรียกว่าตัวพิมพ์ตะกั่ว เหตุการณ์สำคัญดังกล่าวที่ใช้แยกเกณฑ์การทำ Digitization คือ การทำให้ตัวอักขระไทยเป็นอักขระตั้งตรง (Latinization,) โดยความแตกต่างเป็นไปดังภาพที่ 5 นอกจากนี้แล้ว รูปแบบเอกสารอาจไม่ได้มีลักษณะเป็นการเขียนเรียงเป็นบรรทัดอย่างที่เป็นในปัจจุบันดังตัวอย่างในภาพที่ 6 เช่น กลบท หรือ การเขียนรวบรัดอย่างฉบับขอม รวมทั้งในบางครั้งเอกสารนั้นอาจไม่ได้ใช้ตัวอักษรไทย แต่อาจใช้ไวยากรณ์และการสะกดแบบภาษาไทย เช่น ตัวอักษรไทยย่อ ไทยขอม ปัลลวะ ตัวธรรมอีสาน/เมือง หรืออาจเขียนเป็นภาษาอื่น เช่น ภาษาจีน หากว่ากระบวนการ OCR ไม่สามารถนำมาใช้ได้แล้ว โดยปกติ วิธีการทางโบราณคดีในการตีความเอกสารเหล่านี้จะแบ่งออกเป็น 5 ขั้นตอนตามภาพที่ 7 จะเห็นได้ว่าในกระบวนการ Digitization ขั้นตอนที่ 1 และ 3 ในภาพที่ 4 นั้นมีความละเอียดอ่อนและบางครั้งอาจต้องใช้ผู้เชี่ยวชาญจากสาขาที่เกี่ยวข้องกับเอกสารชุดนั้น ๆ มาทำ Digitization อีกด้วย นอกจากนี้แล้ว กระบวนการ Digitization ยังมีความซับซ้อนเพิ่มเติมในส่วนขั้นตอนที่ 2 และขั้นตอนที่ 4 อีกด้วย ซึ่งความซับซ้อนดังกล่าวเกี่ยวข้องกับการจัดการข้อมูลขนาดใหญ่และลักษณะภววิทยาของเอกสารจดหมายเหตุที่แปลงมาอยู่ในรูปแบบดิจิทัลเป็นที่เรียบร้อยแล้วอีกด้วย เมื่อเรากล่าวถึงกระบวนการที่ทำให้เอกสารต่าง ๆ เป็นข้อมูลดิจิทัลซึ่งนำไปใช้ประโยชน์ได้แล้ว ความท้าทายหนึ่งที่สำคัญไม่แพ้กับกระบวนการ Digitization คือ การนำข้อมูลไปใช้ประโยชน์ได้อย่างมีประสิทธิภาพ ซึ่งเราจะกล่าวในตอนถัดไป เชิงอรรถ เรียบเรียงโดย กฤตพัฒน์ รัตนภูผาตรวจทานและปรับปรุงโดย นววิทย์ พงศ์อนันต์