สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

การจัดทำข้อมูลนิรนาม (Data Anonymization)

Dec 28, 2021

ด้วยเหตุที่ความเป็นส่วนตัวกำลังถูกให้ความสำคัญโดยเฉพาะบนโลกดิจิทัลที่ข้อมูลจากแต่ละปัจเจกมีการผลิต และเคลื่อนไหวอยู่ในทุกขณะ นำไปสู่การยกร่างพระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 เพื่อปกป้องคุ้มครองความเป็นส่วนตัวของเจ้าของข้อมูลของแต่ละคนไม่ให้ถูกนำไปใช้ในแนวทางที่จะนำไปสู่การละเมิดความเป็นส่วนตัว (Privacy) ของเจ้าของข้อมูลส่วนบุคคล (Data Subject) อย่างไรก็ดีในมุมมองของผู้ประมวลผล หรือผู้ใช้ประโยชน์จากข้อมูลเพื่อการวิเคราะห์นั้น ย่อมหลีกเลี่ยงไม่ได้ที่จะต้องพัวพันกับข้อมูลที่เข้าข่ายเป็นข้อมูลส่วนบุคคล แล้วจะมีทางใดบ้างที่จะช่วยทำให้มั่นใจว่าแนวปฏิบัติของตนนั้นไม่สุ่มเสี่ยงต่อการละเมิดความเป็นส่วนตัวของเจ้าของข้อมูล? แนวปฏิบัติหนึ่งคือการทำให้ข้อมูลส่วนบุคคลเหล่านั้นกลายเป็นข้อมูลที่ไม่สามารถบ่งชี้ตัวบุคคลได้ หรือที่เรารู้จักกันในชื่อของกระบวนการทำให้เป็นนิรนาม (Anonymization)

นักวิทยาศาสตร์ข้อมูล (Data Scientist) และผู้วิเคราะห์ข้อมูล (Data Analyst) หลายครั้งจำเป็นต้องมีการประมวลผลข้อมูลส่วนบุคคลเพื่อจะสามารถนำข้อมูลไปใช้ประโยชน์ในการวางแผนการดำเนินการในธุรกิจของหน่วยงาน ด้วยเหตุนี้การปกป้องคุ้มครองข้อมูลเหล่านี้ไม่ให้เสี่ยงต่อการรั่วไหล หรือโจรกรรม การรักษาความปลอดภัย (Security Control) ข้อมูลจึงเป็นสิ่งสำคัญ อย่างไรก็ดี ไม่มีการรักษาความปลอดภัยใดสามารถการันตีว่าจะไม่ถูกโจมตีได้ 100% จึงนำไปสู่หลักการการเก็บ (และประมวลผล) ข้อมูลเฉพาะในส่วนที่สำคัญจำเป็น เก็บเฉพาะข้อมูลที่ต้องใช้ ตัวอย่างหนึ่งได้แก่การเปิดบัญชีกับธนาคารพาณิชย์ ธนาคารย่อมจำเป็นต้องใช้ข้อมูลระบุตัวบุคคล ได้แก่ ชื่อ นามสกุล เลขประจำตัวประชาชน ในขณะที่ข้อมูลศาสนา ที่แม้จะปรากฏบนหน้าบัตรประชาชน แต่อาจไม่ได้มีความจำเป็นใดในการดำเนินธุรกรรมระหว่างลูกค้ากับธนาคาร

สำหรับการวิเคราะห์ข้อมูล (Data Analytics) นั้น โดยทั่วไปเราให้ความสำคัญกับภาพรวมแนวโน้มข้อมูลเพื่อวางแผนนโยบายเป็นสำคัญ การบ่งชี้ระบุตัวบุคคล (Identifying) นอกจากจะไม่ใช่สิ่งที่ไม่จำเป็นแล้วยังเป็นเรื่องที่พึงหลีกเลี่ยง เนื่องจากหากผู้วิเคราะห์สามารถล่วงรู้เจ้าของข้อมูลทั้งโดยตั้งใจและไม่ตั้งใจ อาจเกิดการดูแลอย่างเป็นพิเศษ (Special Treatment) อันจะนำไปสู่การวิเคราะห์ข้อมูลอย่างมีอคติ (Bias) ได้

ข้อมูลที่เข้าข่ายเป็นข้อมูลส่วนบุคคล

โดยทั่วไปเราอาจจำแนกประเภทข้อมูลออกเป็น 3 ประเภท ขึ้นกับดีกรีความเข้มข้นในความสามารถในการระบุตัวตนเจ้าของข้อมูล ดังนี้

  1. ข้อมูลส่วนบุคคล (Personal Data) คือข้อมูลที่ทำให้สามารถระบุตัวบุคคลนั้นได้ ทั้งนี้การระบุตัวบุคคลอาจทำได้เนื่องจากเลขหรือรหัสประจำตัว รวมไปถึงข้อมูลปัจจัยหนึ่งหรือหลายปัจจัยร่วมกัน เช่น ข้อมูลกายภาพ, ข้อมูลประชากร, ข้อมูลเศรษฐกิจ, ข้อมูลสังคม, ข้อมูลความเชื่อ ฯลฯ ทั้งนี้พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 ได้ให้คำจำกัดความข้อมูลส่วนบุคคลไว้ในมาตรา 6 ว่าคือ “ข้อมูลเกี่ยวกับบุคคลซึ่งทำให้สามารถระบุตัวบุคคลนั้นได้ไม่ว่าทางตรงหรือทางอ้อม”
  2. ข้อมูลนิรนาม (Anonymous Data) ได้แก่ ข้อมูลซึ่งการระบุตัวตนเจ้าของข้อมูลไม่สามารถเป็นไปได้ ไม่ว่าจะโดยผู้ประมวลผลข้อมูล หรือบุคคลอื่นใด แนวปฏิบัติกฎหมายคุ้มครองข้อมูลของ EU กำหนดเกณฑ์ความเป็นนิรนามของข้อมูลไว้สูง กล่าวคือ ข้อมูลชิ้นหนึ่งจะเป็นข้อมูลนิรนามได้ต่อเมื่อไม่สามารถระบุตัวตนเจ้าของข้อมูลได้ไม่ว่าโดยวิธีการใด ด้วยเหตุนี้กฎหมาย GDPR จึงไม่บังคับใช้กับข้อมูลนิรนาม
  3. ข้อมูลแฝง (Pseudonymous Data) ได้แก่ ข้อมูลที่ผ่านกระบวนการแฝงหรือพรางข้อมูลบ่งชี้ตัวบุคคลเอาไว้ โดยอาจใช้วิธีเปลี่ยนข้อมูลที่ระบุตัวบุคคล (Identifier) ด้วยข้อมูล เลข หรือรหัสอื่น ข้อแตกต่างทางกฎหมายของข้อมูลแฝงและข้อมูลนิรนามได้แก่การที่กฎหมาย GDPR ยังบังคับใช้กับข้อมูลแฝงด้วย เนื่องจากเราสามารถระบุตัวตนเจ้าของข้อมูลแฝงได้

“ข้อมูลส่วนบุคคล หมายความว่า ข้อมูลเกี่ยวกับบุคคลซึ่งทำให้สามารถระบุตัวบุคคลนั้นได้ไม่ว่าทางตรงหรือทางอ้อม”

พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 มาตรา 6

กระบวนการลดความเสี่ยงการระบุตัวตนของเจ้าของข้อมูลให้อยู่ในเกณฑ์น้อยมากจนแทบไม่ต้องให้ความสำคัญกับความเสี่ยง เรียกว่า การทำให้เป็นนิรนาม (anonymization) ถึงแม้ข้อมูลนิรนามจะไม่ถือเป็นข้อมูลส่วนบุคคล ดังจะเห็นได้จากการที่กฎหมายคุ้มครองข้อมูลส่วนบุคคลสหภาพยุโรป (GDPR) ซึ่งถือเป็นกฎหมายต้นแบบของพระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคลของไทย  ไม่ถูกบังคับใช้กับข้อมูลที่เป็นข้อมูลนิรนาม ดังระบุในอารัมภบท GDPR (Recital) ข้อที่ 26 ซึ่งให้คำจำกัดความของข้อมูลข่าวสารนิรนามว่าคือ “…ข้อมูลที่ไม่สัมพันธ์กับบุคคลที่ถูกระบุตัวตนหรือสามารถระบุตัวตนได้ใด ๆ หรือข้อมูลส่วนบุคคลที่ถูกทำให้ระบุตัวตนไม่ได้ด้วยวิธีการที่ทำให้ไม่สามารถระบุตัวตนเจ้าของข้อมูลได้หรือไม่สามารถระบุตัวตนได้อีกต่อไป ดังนั้นข้อกำหนดนี้ไม่เกี่ยวข้องกับการประมวลข้อมูลนิรนามอันรวมไปถึงเพื่อวัตถุประสงค์ทางสถิติหรือการวิจัย”

“ข้อมูลนิรนาม ได้แก่ ข้อมูลที่ไม่สัมพันธ์กับบุคคลที่ถูกระบุตัวตนหรือสามารถระบุตัวตนได้ใด ๆ หรือข้อมูลส่วนบุคคลที่ถูกทำให้ระบุตัวตนไม่ได้ด้วยวิธีการที่ทำให้ไม่สามารถระบุตัวตนเจ้าของข้อมูลได้หรือไม่สามารถระบุตัวตนได้อีกต่อไป ดังนั้นข้อกำหนดนี้ไม่เกี่ยวข้องกับการประมวลข้อมูลนิรนามอันรวมไปถึงเพื่อวัตถุประสงค์ทางสถิติหรือการวิจัย”

อารัมภบท GDPR (Recital) ข้อที่ 26

อย่างไรก็ดีศูนย์วิจัยกฎหมายและพัฒนา คณะนิติศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ได้ตั้งข้อพึงระวังว่า แม้ลำพังชุดข้อมูลที่ผ่านการทำให้เป็นนิรนามอาจสามารถระบุตัวตนเจ้าของข้อมูลได้ยากจนถึงขั้นไม่ได้เลย แต่หากวันดีคืนดีหากมีข้อมูลแวดล้อมเพิ่มเติมอาจทำให้สามารถระบุตัวตนเจ้าของข้อมูลได้ เนื่องจากข้อมูลเดิมอาจยังมีความสามารถในการถูกนำไปเชื่อมโยง (Linkability) เพื่อนำไปพิจารณาร่วมกับข้อมูลแวดล้อมอื่น นั่นหมายความว่าข้อมูลที่ผ่านการทำให้เป็นนิรนาม “อาจ” ยังคงเข้าข่ายนิยามของข้อมูลส่วนบุคคลตามที่ระบุไว้ในพระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ.2562 มาตรา 6 หากสามารถระบุตัวบุคคลได้ในทางอ้อม

เทคนิควิธีการจัดทำข้อมูลนิรนาม (Anonymization)

เพื่อกำหนดแนวทางในการแปลงข้อมูลส่วนบุคคลให้เป็นข้อมูลนิรนาม คณะที่ปรึกษาผู้เชี่ยวชาญสหภาพยุโรปด้านการคุ้มครองข้อมูลส่วนบุคคล ได้เผยแพร่แนวปฏิบัติว่าด้วยเทคนิคการจัดทำข้อมูลนิรนามในความเห็น WP216 (2014) โดยแบ่งกลุ่มเทคนิคการจัดทำข้อมูลนิรนามออกเป็นสองพวก ได้แก่

  1. การทำให้คละ (Randomization) เน้นการปรับข้อมูลให้มีลักษณะคละเคล้า เปลี่ยนไปจากข้อมูลเดิม โดยเป้าประสงค์เพื่อตัดความสัมพันธ์ระหว่างบุคคลกับชิ้นข้อมูลโดยไม่เสียคุณค่าข้อมูล ตัวอย่างเทคนิคในกลุ่มการทำให้คละ เช่น การเพิ่มตัวเลขรบกวน (Noise Addition), การสับเปลี่ยนใหม่ (Permutation) และ ความเป็นส่วนตัวที่แตกต่างกัน (Differential Privacy)
    1. การเพิ่มตัวเลขรบกวน (Noise Addition) เป็นการเพิ่มตัวเลขสุ่มเข้าไปในชุดข้อมูลเดิมทำให้ไม่ทราบว่าข้อมูลจริงมีค่าเท่าใด ความแม่นยำของข้อมูลที่เสนอมีค่าลดลง เช่น ข้อมูลส่วนสูงจากเดิมที่วัดได้ 173 เซนติเมตร การเพิ่มตัวเลขรบกวนอาจปรับตัวเลขดังกล่าวเป็นตัวเลขใดก็ได้ที่ใกล้เคียง เช่น 171 หรือ 178 เซนติเมตร
    2. การสับเปลี่ยนใหม่ (Permutation) เป็นการสลับค่าภายในตัวแปร (feature) หนึ่ง ๆ ทำให้ไม่สามารถเชื่อมโยงข้อมูลต่างตัวแปรภายในแถวหนึ่ง ๆ ได้ แต่ยังคงการกระจายตัวของแต่ละตัวแปรอยู่
    3. ความเป็นส่วนตัวที่แตกต่างกัน (Differential Privacy) เป็นเทคนิคการเพิ่มตัวเลขรบกวนในรูปแบบที่ช่วยให้มั่นใจว่าข้อมูลรายแถวจะไม่สามารถถูกคาดเดาได้เมื่อไม่ถูกนำไปประมวลผลร่วมหรือคัดออก (อ่านรายละเอียดทางเทคนิคได้ที่บทความ Differential Privacy และ Laplace Mechanism ด้วยตัวอย่างง่าย ๆ)
  2. การทำให้เป็นสามัญ (Generalization) เน้นการลดความละเอียดของชั้นข้อมูลเพื่อให้ข้อมูลสูญเสียความเฉพาะเจาะจง ตัวอย่างเทคนิคในกลุ่มการทำให้เป็นสามัญ ได้แก่ ทำ K-anonymity, การทำ L-diversity และการทำ T-closeness
    1. การทำ K-anonymity คือการทำให้มั่นใจว่าข้อมูลจะมีค่าเหมือนกันจำนวนไม่ต่ำกว่า K แถว นั่นคือ หาก K=3 จะไม่สามารถบอกได้ข้อมูลชิ้นที่ยกมานั้นมากจากหนึ่งในแถวใดในสามแถวที่เหมือนกัน การปรับข้อมูลเพื่อการันตี K-anonymity สามารถทำได้ผ่านการปรับข้อมูลที่ละเอียดเกินไปให้มีสเกลที่หยาบขึ้น เช่น ให้แสดงค่าจังหวัดแทนค่าตำบล หรือให้แสดงค่าอายุแทนค่าวันเกิด เป็นต้น
    2. สำหรับการทำ L-diversity เป็นส่วนขยายของการทำ K-anonymity โดยการันตีว่าในจำนวน K (หรือมากกว่า) แถวที่เหมือน ๆ กันนั้น จะมีความ L ค่าที่ต่างกันในแต่ละตัวแปร เพื่อป้องกันไม่ให้กลุ่มหนึ่งกลุ่มใดที่ได้จากการทำ K-anonymity มีแต่ค่าข้อมูลอ่อนไหวค่าหนึ่งไปกองรวมกันในกลุ่มเดียว อันอาจทำให้มีการเลือกปฏิบัติกับคนกลุ่มนั้นทั้งกลุ่ม ในขณะที่การทำ T-closeness เป็นการปรับแต่ง L-diversity เพื่อกำกับการทำ K-anonymity ให้ข้อมูลมีการกระจายตัวในลักษณะเดียวกันกับข้อมูลดั้งเดิม

ทั้งนี้ยังมีเทคนิคอีกกลุ่มหนึ่งที่ช่วยลดความเสี่ยงในการระบุตัวตน ได้แก่ เทคนิคในกลุ่มที่เน้นการกับข้อมูลระบุตัวตนที่ชัดแจ้ง เช่น รหัสประจำตัว, ชื่อ, นามสกุล ฯลฯ โดยอาจเป็นในลักษณะของการลบทิ้ง (Removal), แทนด้วยค่าศูนย์ (Nulling out), ปิดทับข้อมูล (Masking out) ทั้งหมดหรือบางส่วน, การสลับอักขระ (Scrambling) ฯลฯ อย่างไรก็ดีเทคนิคกลุ่มนี้มักไม่สามารถการันตีความเป็นนิรนามของข้อมูลได้ แต่เป็นเทคนิคที่ถูกนำไปใช้ประกอบกับเทคนิคอื่น ๆ ที่กล่าวมาข้างต้นเพื่อลดความสามารถในการระบุตัวตนของข้อมูล

เทคนิควิธีการจัดทำข้อมูลแฝง (Pseudonymization)

ในขณะที่กระบวนการจัดทำข้อมูลนิรนามมุ่งเน้นการจัดการแต่ละข้อมูลไม่ให้สามารถสืบสาวถึงตัวตนของเจ้าของข้อมูลได้ อย่างไรก็ดีในบางกรณีการระบุตัวตนเจ้าของข้อมูลอาจมีความจำเป็นแต่ให้สามารถทำได้ผ่านช่องทางที่ออกแบบไว้เท่านั้น กระบวนการดังกล่าวเรียกว่าการแฝงข้อมูล (Pseudonymization) ซึ่งช่วยลดทอนหรือจำกัดความสามารถในการเชื่อมโยงข้อมูลชุดนั้น ๆ เข้ากับชุดข้อมูลอื่น (นอกเหนือจากที่วางแผนไว้) เทคนิคพื้นฐานในการแฝงข้อมูล เช่น การเข้ารหัสข้อมูล (Encryption), การเข้าฟังก์ชันแฮช (Hashing) และ การเก็บข้อมูลแยกส่วนโดยเชื่อมผ่านโทเค็น (Tokenization) เป็นต้น

  1. การเข้ารหัสข้อมูล (Encryption) เป็นการแปลงข้อมูลให้อยู่ในรูปที่ไม่สามารถอ่านทำความเข้าใจได้ แต่สามารถถูกแปลกลับเป็นข้อมูลดั้งเดิมได้ผ่านการใช้กุญแจ (key) ซึ่งจะถูกเก็บรักษาโดยผู้ที่ได้รับมอบหมายให้ดูแลรักษาความปลอดภัย
  2. การเข้าฟังก์ชันแฮช (Hashing) เป็นการแปลงข้อมูลให้อยู่ในรูปแบบอื่น และไม่สามารถแปลกลับเป็นข้อมูลดั้งเดิมได้ ผลลัพธ์จากการแฮชมักมีขนาดกำหนดที่แน่นอนจึงทำให้ข้อมูลเดิมที่ต่างกันอาจถูกแฮชเป็นค่าเดียวกันซึ่งอาจกระทบต่อการตีความ การแฮชเป็นกระบวนการที่นิยมเนื่องจากสามารถแปลงได้รวดเร็วและขจัดความสามาถในการสืบย้อนไปยังข้อมูลต้นฉบับ อย่างไรก็ดีหากฟังก์ชันแฮชที่เลือกใช้เป็นที่รับรู้โดยทั่ว ข้อมูลดังเดิมอาจถูกสืบย้อนได้ผ่านการเทียบข้อมูลก่อนและหลังแฮชที่เป็นไปได้ทั้งหมด (Brute Force) เพื่อแก้ปัญหาดังกล่าวผู้ประมวลผลอาจพิจารณาการเพิ่มค่าสุ่ม (salt) ก่อนดำเนินการแฮชเพื่อให้ผลลัพธ์จากการแฮชสามารถคาดเดาได้ยากขึ้น
  3. การทำโทเค็น (Tokenization) เป็นการเปลี่ยนข้อมูลอ่อนไหว หรือที่ต้องการซ่อนให้เป็นรหัสบางอย่างที่ไม่มีความหมายสำคัญ เรียกว่า โทเค็น (Token) ตัวอย่างเช่นการแยกข้อมูลส่วนที่เป็นข้อมูลพฤติกรรมหรือคุณสมบัติ ออกจากข้อมูลอ่อนไหวหรือข้อมูลระบุตัวตนโดยกำหนดโทเค็นสำหรับใช้เป็นรหัสอ้างอิงเชื่อมโยงระหว่างข้อมูลสองส่วน การเข้าถึงข้อมูลเฉพาะส่วนใดส่วนหนึ่งจะไม่สามารถระบุตัวตนและพฤติกรรม (หรือคุณสมบัติ) ไปพร้อมกันได้ แต่ข้อมูลสองส่วนอาจถูกนำมาใช้ประมวลผลร่วมกันเฉพาะในกรณีที่ต้องการสืบทราบตัวตนเจ้าของข้อมูลพฤติกรรม
Table
Description automatically generated
ตัวอย่างการทำโทเค็น (Tokenization) โดยการแยกข้อมูลระบุตัวตน ออกจากข้อมูลการใช้บริการ และสร้างตัวแปร Token สำหรับใช้เชื่อมข้อมูลระหว่างสองตารางในกรณีที่มีความจำเป็นต้องระบุตัวตนเจ้าของข้อมูล ชุดข้อมูลการใช้บริการ (ตารางกลาง) อาจนำไปใช้วิเคราะห์สถิติการเข้าใช้บริการได้โดยที่ผู้วิเคราะห์ไม่สามารถล่วงตัวตนของผู้เข้าใช้บริการได้ (ภาพจาก Hamidovic et al. 2019)

เราควรใช้เทคนิคไหนเพื่อลดความสามารถในการระบุตัวตน

กระบวนการทางเทคนิคที่กล่าวมาข้างต้นช่วยลดความสามารถในการระบุตัวบุคคลลง อย่างไรก็ดีแต่ละเทคนิคล้วนมีข้อดีข้อบกพร่องแตกต่างกันออกไป การคุ้มครองความเป็นส่วนตัว (Privacy) ที่รัดกุมจำกัดรูปแบบการการนำข้อมูลไปใช้ประโยชน์ (Utility) การเลือกรูปแบบเทคนิคที่จะใช้คุ้มครองความเป็นส่วนตัวจึงต้องคำนึงถึงรูปแบบวิธีการใช้ข้อมูลประกอบด้วย

Diagram
Description automatically generated
การคุ้มครองความเป็นส่วนตัวจำเป็นต้องถูกพิจารณาร่วมกับการใช้ประโยชน์ข้อมูล ข้อมูลที่มีการคุ้มครองความเป็นส่วนตัวที่รัดกุมย่อมสามารถนำไปใช้ประโยชน์ได้น้อย ในขณะที่ข้อมูลที่ใช้ประโยชน์ได้เต็มที่ย่อมเสี่ยงต่อการละเมิดความเป็นส่วนตัวของเจ้าของข้อมูล (ภาพจาก Nicolas 2019)

เพื่อลดความสามารถในการระบุตัวตนเจ้าของข้อมูล อันจะช่วยคุ้มครองความเป็นส่วนตัวของเจ้าของข้อมูล คณะที่ปรึกษาผู้เชี่ยวชาญสหภาพยุโรปด้านการคุ้มครองข้อมูลส่วนบุคคลจึงได้ระบุรูปแบบความเสี่ยงอันมีแนวโน้มที่จะนำไปสู่การระบุตัวตนเจ้าของข้อมูลได้เป็น 3 รูปแบบ ได้แก่ การแบ่งแยกจากกลุ่ม ความสามารถเชื่อมโยง และการอนุมาน

  1. การถูกแยกออกจากกลุ่ม (Singling out) หมายถึง การที่ตัวตนถูกระบุได้เนื่องจากข้อมูลมีลักษณะแปลกแยกจากกลุ่มมากเป็นพิเศษ ตัวอย่างเช่น ข้อมูลเงินเดือนของเจ้าของบริษัทย่อมสูงกว่าพนักงานกลุ่มอื่นทำให้สามารถระบุตัวตนได้ การเพิ่มตัวเลขรบกวนช่วยให้ไม่ทราบตัวเลขที่แน่นอนแต่ไม่สามารถการันตีจะสร้างความคลาดเคลื่อนได้มากพอที่จะทำให้ไม่เห็นความแตกต่างระหว่างเงินเดือนเจ้าของบริษัทกับพนักงานอื่น กรณีเช่นนี้จำเป็นต้องอาศัยเทคนิคการรวมกลุ่มข้อมูลและการทำ K-anonymity เพิ่มเติม เพื่อให้มั่นใจว่าตัวเลขเงินเดือนเจ้าของบริษัทที่ปรากฏในชุดข้อมูลไม่โดดออกมาจากตัวเลขของพนักงานคนอื่น
  2. ความสามารถเชื่อมโยง (Linkability) หมายถึง การที่ตัวตนถูกระบุได้เนื่องจากสามารถนำข้อมูลไปเชื่อมโยงกับข้อมูลชุดอื่นเพิ่มเติม ตัวอย่างเช่น ในชุดข้อมูลการเข้ารับบริการรายครั้ง (Transaction) ซึ่งบุคคลหนึ่ง ๆ สามารถเข้ารับบริการหลายครั้ง ข้อมูลรหัสประจำตัวที่ผ่านการแฮชยังคงสามารถสืบทราบได้ว่าเป็นการเข้ารับบริการของบุคคลคนเดียวกัน (แม้ไม่รู้ว่าคือใคร) เนื่องจากผลลัพธ์ที่ได้จากการแฮชมีค่าตรงกัน แต่หากเปลี่ยนรูปแบบเป็นการเพิ่มเลขรบกวนในรหัสประจำตัว ผลลัพธ์ที่ได้จะมีค่าต่างกันสำหรับรหัสประจำตัวหนึ่ง ๆ ความต่างของข้อมูลที่ผ่านกระบวนการดังกล่าวทำให้ไม่สามารถทราบได้ว่าเป็นการเข้ารับบริการนั้นมีที่มาจากบุคคลเดียวกันหรือไม่
  3. การอนุมาน (Inference) หมายถึง การที่ตัวตนถูกระบุได้เนื่องจากสามารถคาดเดาข้อมูลส่วนที่ถูกอำพรางว่ามีค่าจริงเป็นอะไรโดยอาศัยการตีความจากข้อมูลอื่น ตัวอย่างเช่น เราอาจเดาข้อมูลเงินเดือนจากอายุงานของแต่ละคน การลดความละเอียดของข้อมูลอายุงานเป็นช่วงลดความแม่นยำแต่ไม่สามารถกำจัดความสามารถในการคาดเดาข้อมูลเงินเดือนได้ ในขณะที่การแฮชหรือแทนเข้ารหัสข้อมูลอายุงานจะทำให้การคาดเดาข้อมูลเงินเดือนเป็นไปได้ยากขึ้น

เป็นการยากที่จะบอกว่าเทคนิคใดเป็นเทคนิคที่ดีที่สุด ในทางปฏิบัติเทคนิคเดียวกันอาจมีระดับความเสี่ยงที่ต่างกันในกรณีใช้งานที่ต่างกัน ผู้ควบคุมข้อมูลจำเป็นต้องพิจารณาการใช้งานข้อมูลประกอบผ่านการประเมินความเสี่ยงในสามรูปแบบที่ยกมาข้างต้น ในเบื้องต้นอาจพิจารณาตารางภาพรวมความเสี่ยงได้จากตารางด้านล่าง

Singling out still a riskLinkability still a riskInference still a risk
Noise AdditionYesMay notMay not
SubstitutionYesYesMay not
Aggregation (K-anonymity)NoYesYes
L-diversityNoYesMay not
Differential PrivacyMay notMay notMay not
Hashing/TokenizationYesYesMay not
ตารางภาพรวมความเสี่ยงของแต่ละเทคนิคสำหรับใช้ลดความสามารถในการระบุตัวตนเจ้าของข้อมูล (สรุปภาพรวมโดย Burton 2016)

บทสรุป

การจัดทำข้อมูลนิรนามและการจัดทำข้อมูลแฝงเป็นกระบวนการสำคัญในการดูแลรักษาความเป็นส่วนตัวของเจ้าของข้อมูล อันเป็นองค์ประกอบสำคัญหนึ่งในการรักษาความปลอดภัยของข้อมูล วิธีการจัดทำข้อมูลนิรนามสามารถจัดทำได้หลากหลายวิธีซึ่งมีความซับซ้อน ความเหมาะสม ข้อดี และข้อด้อยที่แตกต่างกันออกไป การเลือกเทคนิควิธีที่เหมาะสมจึงจำเป็นต้องพิจารณาเป็นกรณีไป แนวทางหนึ่งที่จะช่วยให้สามารถเลือกใช้เทคนิควิธีที่เหมาะสมสามารถทำได้โดยการประเมินความเสี่ยงที่ข้อมูลชิ้นดังกล่าวจะถูกนำไปใช้ระบุตัวตนผ่านสามรูปแบบ คือ การแบ่งแยกจากกลุ่ม ความสามารถเชื่อมโยง และการอนุมานข้อมูล คงเป็นเรื่องยากเทคนิควิธีหนึ่งวิธีใดที่สามารถลดความเสี่ยงทั้งสามรูปแบบให้เหลือศูนย์ ในความเป็นจริงความเสี่ยงในบางรูปแบบอาจสามารถยอมรับได้เพื่อลดความเสี่ยงในรูปแบบอื่นที่ไม่สามารถยอมรับได้ให้เหลือน้อยที่สุด สิ่งสำคัญจึงเป็นการเลือกและออกแบบรูปแบบการจัดทำข้อมูลนิรนามหรือการจัดทำข้อมูลแฝงที่จะลดความเสี่ยงที่ไม่สามารถยอมรับได้ให้ต่ำที่สุดเท่าที่จะเป็นไปได้โดยที่ยังสามารถใช้ประโยชน์จากข้อมูลได้อย่างเต็มศักยภาพ


เขียนโดย พีรดล สามะศิริ
ตรวจทานและปรับปรุงเนื้อหาโดย อนันต์วัฒน์ ทิพย์ภาวัต

Peeradon Samasiri, PhD

Project Manager and Senior Data Scientist at Government Big Data Institute (GBDi)

Ananwat Tippawat

Data Scientist at Big Data Institute (Public Organization), BDI