สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

Simpson’s Paradox: ตัวแปรแฝงที่เปลี่ยนแปลงข้อสรุป กับ 2 กรณีตัวอย่างที่น่าเหลือเชื่อ

Apr 3, 2023
Simpson's Paradox
รูปที่ 1 Simpson’s Paradox in a nutshell ที่มา analyticsindiamag

Simpson’s Paradox คืออะไร?

ความขัดแย้งของซิมป์สัน  (Simpson’s Paradox) เป็นปรากฏการณ์ทางสถิติ ที่เกิดขึ้นในกรณีที่แนวโน้มของข้อมูลมีทิศทางสลับด้านกันเมื่อมีการแบ่งกลุ่มของข้อมูลย่อย โดยในบทความนี้ผู้เขียนจะนำเสนอตัวอย่างที่น่าสนใจในการการสรุปข้อมูลจากข้อมูลชุดเดียวกัน แต่สามารถได้ข้อสรุปที่ตรงกันข้ามกัน

Case Study 1: เคสการอคติทางเพศของ UC Berkeley (Dexter, 2017)

เมื่อปี 1973 มหาวิทยาลัย UC Berkeley มีประเด็นเรื่องการมีอคติทางเพศ เนื่องจากเมื่อดูสถิติการรับนักศึกษาเข้าแล้ว มีนักเรียนเพศหญิงเพียง 35% (จาก 4321 คน) ที่ได้รับการคัดเลือกเพื่อเข้าเรียน แต่นักเรียนเพศชายกลับได้รับคัดเลือกเพื่อเข้าเรียนถึง 44% (จาก 8442 คน) จึงกลายเป็นประเด็นทางสังคมในเรื่องความไม่เท่าเทียมทางเพศ

ตารางที่ 1: อัตราการได้เข้าเรียนจำแนกตามเพศ

ต้นตอของความไม่เท่าเทียมอยู่ที่ไหน?

ซึ่งเมื่อทางมหาวิทยาลัย UC Berkeley ได้เห็นข้อมูลนี้ แล้วจึงได้ทำการสืบค้นข้อมูลเพิ่มเติม เพื่อทีจะชี้เป้าว่าภาควิชาใด ที่เป็นต้นตอของความไม่เท่าเทียมทางเพศในครั้งนี้ จากนั้นจึงได้เผยข้อมูลสรุปสำหรับ 6 ภาควิชา ที่มีจำนวนผู้สมัครมากที่สุดได้ดังนี้

ตารางที่ 2: เปรียบเทียบอัตราการได้เข้าเรียนจำแนกตามเพศและภาควิชา

การสรุปข้อมูลในแง่มุมนี้ได้ให้ข้อสรุปที่แตกต่างกัน โดยสามารถสรุปได้ว่ามีทั้งหมด 4 ภาควิชา (จาก 6) ที่มีอัตราส่วนการรับนักเรียนเพศหญิงสูงกว่าอัตราส่วนการรับนักเรียนเพศชาย ซึ่งขัดแย้งกับแนวโน้มภาพรวมที่อัตราการรับนักเรียนชายสูงกว่า

ทำไมข้อมูลถึงขัดแย้งกัน?

Simpson's Paradox in UC Berkeley Admission
รูปที่ 2: ภาควิชา A ที่มีอัตราการรับสูง มีผู้สมัครหญิงน้อย แต่ภาควิชา F ที่มีอัตราการรับเข้าต่ำมีจำนวนผู้สมัครทั้งสองเพศใกล้เคียงกัน

โดยที่คำถามต่อไปที่น่าสนใจก็คือ เกิดอะไรขึ้นกับข้อมูลชุดนี้ ? ในกรณีนี้เราอาจจะเรียกว่ามีตัวแปรแฝง (Lurking Variable) ซึ่งในกรณีนี้คือ “ภาควิชา” โดยผู้อ่านสามารถสังเกตได้ว่าภาควิชา A มีอัตราการรับที่สูงมาก (82% ของนักเรียนหญิงที่สมัครภาควิชานี้) แต่มีจำนวนนักเรียนหญิงที่สมัครเข้าภาควิชา A เพียง 108 คน (คิดเป็น 2% ของนักเรียนหญิงที่สมัครทั้งหมด) แต่มีจำนวนนักเรียนชายที่สมัครเข้าภาควิชา A อยู่ถึง 825 คน (คิดเป็น 10% ของนักเรียนชายที่สมัครทั้งหมด)

ในทางกลับกัน ภาควิชา F นั้นมีอัตราการรับนักศึกษาต่ำนั้นมีผู้สมัครที่เป็นนักเรียนหญิง 341 คน (คิดเป็น 8% ของนักเรียนหญิงที่สมัครทั้งหมด) แต่มีผู้สมัครที่เป็นนักเรียนชายเพียง 373 คน (คิดเป็น 4% ของนักเรียนชายที่สมัครทั้งหมด) ดังนั้นเมื่อทำการวิเคราะห์จากข้อมูลสถิตินี้ อาจะสรุปได้ว่า ผู้สมัครเพศหญิงมีแนวโน้มที่จะสมัครเข้าภาควิชาที่มีอัตราการคัดเลือกเข้าเรียนต่ำ (ภาควิชา F) แต่ผู้สมัครเพศชายมีแนวโน้มที่จะสมัครเข้าภาควิชาที่มีอัตราการคัดเลือกเข้าเรียนสูง (ภาควิชา A) จึงเป็นสาเหตุให้เกิด Simpson’s Paradox ในครั้งนี้

Case Study 2: การสูบบุหรี่ทำให้อายุยืน (David R. Appleton, 1996)

ในปี ค.ศ. 1996 ได้มีงานวิจัยที่ประเทศอังกฤษ โดยทำการศึกษาเปรียบเทียบอัตราการรอดชีวิต 20 ปี ระหว่างกลุ่มตัวอย่างที่สูบบุหรี่ และกลุ่มที่ไม่สูบบุหรี่ โดยคณะผู้วิจัยพบว่ากลุ่มตัวอย่างที่สูบบุหรี่ นั้นมีอัตราการมีชีวิตรอด (ไม่เสียชีวิตภายใน 20 ปี) สูงกว่ากลุ่มตัวอย่างที่สูบบุหรี่ (76% สำหรับผู้สูบบุหรี่ และ 69% สำหรับผู้ไม่สูบบุหรี่) ในเบื้องต้นนั้นจะสามารถสรุปได้ว่าการสูบบุหรี่นั้นทำให้มีอายุยืนมากขึ้น

ตารางที่ 3: เปรียบเทียบจำนวนการรอดชีวิตในระยะ 20 ปี ระหว่างกลุ่มตัวอย่างที่สูบบุหรี่ และไม่สูบบุหรี่

ตัวแปรแฝงอยู่ที่ไหน?

แน่นอนว่าข้อสรุปเบื้องต้นที่ได้นั้นค่อนข้างตรงกันข้ามกับสิ่งที่เรารู้และเข้าใจกัน ในกรณีนี้เราวิเคราะห์แบบเจาะลึก (Drill Down) ว่าสาเหตุที่แท้จริงที่ทำให้ข้อมูลออกมาเป็นลักษณะใด เพื่อที่จะค้นหา ผู้ร้ายตัวจริง (Lurking Variable) โดยนำกลุ่มตัวอย่างมาแบ่งเป็น 2 กลุ่มอายุ (18-65 ปี และ 65 ปีขึ้นไป) จะสามารถระบุสาเหตุเบื้องหลังแท้จริงนั้นเป็นที่การกระจายตัวของอายุในกลุ่มตัวอย่าง

ตารางที่ 4: อัตราการรอดชีวิตเมื่อ Drill Down ด้วยกลุ่มอายุ

เมื่อวิเคราะห์แบบจำแนกกลุ่มอายุตามตารางด้านบน จะพบว่ากลุ่มที่ไม่สูบบุหรี่นั้น มีอัตราการรอดชีวิตสูงกว่ากลุ่มที่สูบบุหรี่ในทั้งสองกลุ่มอายุ ซึ่งตรงกันข้ามกับข้อสรุปเมื่อทำการพิจารณาจากภาพรวม

ความขัดแย้งเชิงข้อมูลในกรณีนี้เกิดจากความเอนเอียงในการสุ่มตัวอย่าง (Sampling Bias) โดยจะพบว่ากลุ่มตัวอย่างที่ไม่สูบบุหรี่นั้นมีสัดส่วนที่ของผู้มีอายุเกิน 65 ปีถึง 26% แต่กลุ่มที่สูบบุหรี่มีสัดส่วนของผู้ที่มีอายุเกิน 65 ปีอยู่เพียง 8% ดังนั้นอัตราการรอดชีวิตของกลุ่มที่ไม่สูบบุหรี่จึงมีน้อยกว่า ในการวิเคราะห์แบบภาพรวม

ข้อสรุปและวิธีการหลีกเลี่ยง Simpson’s Paradox

ในปัจจุบันข้อมูลนั้น ถือเป็นสินทรัพย์ที่มีค่าสำหรับหลาย ๆ องค์กรในการตัดสินใจโดยการขับเคลื่อนด้วยข้อมูล (Data-Driven Decision Making) ซึ่งบทความนี้ ได้ทำการแสดงกรณีตัวอย่างของการแสดงผลของข้อมูล ให้ตรงกันข้ามกันกับความเป็นจริง เพื่อลดความเสี่ยงในการตีความผิดพลาดที่เกิดจาก Simpson’s Paradox ผู้วิเคราะห์ข้อมูลควรจะทำการหาตัวแปรแฝง (Lurking Variables) โดยพิจารณาสิ่งต่อไปนี้

  1. เพิ่มการวิเคราะห์ข้อมูลแบบ Drill Down: ในกรณีที่มีข้อมูลหลาย ตัวแปร ผู้วิเคราะห์สามารถแบ่งกลุ่มข้อมูล (Group by) ก่อนทำการคำนวณสถิติสรุป เพื่อหาตัวแปรแฝง (Lurking Variables)
  2. ควบคุมการ Sampling Bias: ควรตรวจสอบการกระจายตัวของข้อมูลในกลุ่มตัวอย่าง ว่ามีความสมดุลกันมากหรือน้อยเพียงใด
  3. ปรึกษาผู้เชี่ยวชาญเฉพาะด้าน: ความเข้าใจในบริบทของข้อมูลนั้นมีความสำคัญอย่างยิ่งต่อการวิเคราะห์ข้อมูล ดังนั้นจึงต้องขอความเห็นจากผู้ที่มีความรู้เฉพาะทาง (Domain Experts) เพื่อระบุสาเหตุ และตัวแปรแฝงที่เป็นไปได้

แหล่งอ้างอิงเพิ่มเติม

  1. Ignoring a Covariate: An Example of Simpson’s Paradox
  2. How UC Berkeley Almost Got Sued For SEX Discrimination….LYING Data?
  3. The curious case of Simpson’s Paradox
  4. Bayesian Trap: กับดักจากความแม่นยำ
  5. เลือกแผนภาพอย่างไรสำหรับการทำ Data Visualization
  6. Sampling Bias and How to Avoid It | Types & Examples
  7. เตรียมข้อมูลอย่างไรให้โมเดล Linear Regression ดีขึ้น

Weerapat Satitkanitkul

Senior Data Scientist at Big Data Institute (Public Organization), BDI

Ananwat Tippawat

Data Scientist at Big Data Institute (Public Organization), BDI