Survival Analysis กับความท้าทายในการจัดการ Censored Data

Survival Analysis กับความท้าทายในการจัดการ Censored Data

24 September 2020

Survival Analysis คืออะไร

Survival Analysis (การวิเคราะห์การรอดชีพ) หรือเรียกอีกอย่างว่า การวิเคราะห์ระยะปลอดเหตุการณ์ เป็นสาขาย่อยหนึ่งในสถิติ มีเป้าหมายเพื่อวิเคราะห์และสร้างแบบจำลองที่ทำนายเวลาที่ใช้ในการเกิดเหตุการณ์บางอย่างที่เราสนใจ (Time to Event หรือ Survival Time) เช่น ระยะเวลาการเสียชีวิตของผู้ป่วยมะเร็ง ระยะเวลาที่เครื่องจักรจะเสีย หรือระยะเวลาที่ลูกค้าจะย้ายค่าย เป็นต้น  Survival Analysis มีการประยุกต์ใช้มากในทางการแพทย์ ส่วนในสาขาอื่น ๆ ก็มีการนำวิธีนี้ไปใช้ในการวิเคราะห์ข้อมูลที่สนใจระยะเวลาการเกิดเหตุการณ์ในลักษณะนี้ด้วยเช่นเดียวกัน

แผนภาพแสดงระยะเวลาการย้ายค้ายของลูกค้าแต่ละราย

ตัวอย่างการประยุกต์ Survival Analysis ในสาขาต่าง ๆ

  • Healthcare

ในทางการแพทย์มีการประยุกต์ใช้ Survival Analysis ค่อนข้างเยอะ โดยตัวอย่างเหตุการณ์ที่สนใจ อาจจะเป็นการเสียชีวิต การเข้ารับการรักษาซ้ำ การออกจากโรงพยาบาล หรือเหตุการณ์อื่น ๆ ตัวอย่าง เช่น การทดลองเปรียบเทียบประสิทธิภาพการรักษา โดยแบ่งเป็นสองกลุ่มทดสอบที่มีการให้ยาต่างชนิดกัน เพื่อเปรียบเทียบระยะเวลาในการรักษาหาย

ตัวอย่างการประยุกต์ใช้ Survival Analysis ในทางการแพทย์
  • Customer Lifetime Value (CLV):

Customer Lifetime Value (CLV) คือ มูลค่าตลอดช่วงชีวิตของลูกค้า ใช้สำหรับนักการตลาดในการประเมินความคุ้มค่าในการใช้จ่ายสำหรับการบริหารจัดการลูกค้า โดยโจทย์คือ การหารูปแบบการซื้อของลูกค้าที่มีค่า CLV สูง โดยค่า CLV จะถูกกำหนดด้วยสมการที่เรียกว่า Survival Function ซึ่งสามารถใช้ในการประมาณเวลาในการซื้อสินค้าของลูกค้าจากข้อมูลร้านค้าและลักษณะทางประชากรที่แตกต่างกันของลูกค้าได้ เช่น ศึกษาว่าลูกค้าเพศหญิงหรือชายที่โดยรวมแล้วปิดการขายได้เร็วกว่ากัน เราก็จะทำการเสนอสินค้าหรือโปรโมชั่นให้กับลูกค้ากลุ่มนั้น เป็นต้น

How to Reinvent the Customer Experience to Increase Customer ...
การแบ่งกลุ่มลูกค้าตาม Customer Lifetime Value

หนึ่งในความท้าทายของการวิเคราะห์ข้อมูลลักษณะนี้คือการมีอยู่ของบางตัวอย่างข้อมูลที่ไม่สามารถทราบผลลัพธ์ของเหตุการณ์ในช่วงที่ศึกษาได้ เช่น อาสาสมัครออกไปกลางคันระหว่างการทดลอง หรืออาจจะไม่พบการเกิดเหตุการณ์ใด ๆ เลยในช่วงเวลาที่ทำการศึกษานั้น จึงไม่สามารถสรุปได้ว่าจริง ๆ แล้วเกิดเหตุการณ์นั้นเกิดขึ้นกับตัวอย่างหรือไม่ เพราะเหตุการณ์ที่สนใจอาจจะเกิดขึ้นหลังจากช่วงเวลาที่เราสังเกตก็เป็นได้ และในทางปฏิบัติเราก็ไม่สามารถรอเก็บข้อมูลจนกว่าเหตุการณ์นั้นจะเกิดได้ ข้อมูลเหล่านี้จะถูกเรียกว่าเป็นข้อมูลที่มีการเซ็นเซอร์ (censored data) ซึ่ง Survival Analysis นั้นสามารถรับมือกับข้อมูลลักษณะนี้ได้อย่างดี

Survival Data and Censoring

ก่อนอื่นมาพูดถึงลักษณะของข้อมูลที่ใช้กับการวิเคราะห์ประเภทนี้กันก่อนหรือที่เราเรียกว่าเป็นข้อมูลประเภท Survival Data  จากที่กล่าวมาข้างต้นเป็นไปได้บ่อยครั้งที่เราจะไม่พบการเกิดเหตุการณ์ในบางตัวอย่างเนื่องจากข้อจำกัดของเวลาในการสังเกต เช่น นักวิจัยทางการแพทย์จะไม่รอถึง 50 ปีเพื่อติดตามการเกิดโรค ด้วยเหตุนี้เราจึงสนใจหรือทำการศึกษา ณ ช่วงเวลาใดเวลาหนึ่งระหว่างการป่วยเท่านั้น หรือบางตัวอย่างอาจมีการขาดการติดตาม (follow up) ไประหว่างทางเนื่องจากสาเหตุต่าง ๆ เช่น ผู้ป่วยไม่ได้กลับมาตรวจโรคอีกครั้ง  ปรากฏการณ์ลักษณะนี้จะถูกเรียกว่าการเซ็นเซอร์ (censoring) ซึ่งเราสามารถที่จะแบ่งประเภทของการเซ็นเซอร์นี้ออกเป็น 3 ประเภทหลัก ๆ ตามลักษณะการเกิด ได้แก่

1) Right-censoring:

คือ กรณีที่ยังไม่เกิดเหตุการณ์ระหว่างช่วงเวลาที่ทำการสังเกต ซึ่งอาจจะเกิดเหตุการณ์ หรือไม่เกิดเหตุการณ์หลังจากนั้นก็ได้ ในที่นี้เราจะรู้เพียงแค่สถานะสิ้นสุด ณ ช่วงเวลาการสังเกตเท่านั้น

2) Left-censoring:

คือ กรณีที่แต่ละตัวอย่างข้อมูล ไม่ได้เริ่มทำการทดลอง ณ จุดเดียวกัน หรือมีจุดเริ่มต้นเกิดก่อนช่วงเวลาศึกษาและไม่รู้ช่วงเวลาที่แน่นอนว่าเริ่มต้นเมื่อไหร่ ทำให้ไม่รู้ว่าระยะเวลาก่อนที่จะสังเกตพบเหตุการณ์ได้ผ่านมานานเท่าใดแล้ว

3) Interval-censoring:

คือ กรณีที่ไม่รู้เวลาการเกิดเหตุการณ์ที่แน่นอน รู้แค่ว่าเกิดในช่วงเวลาใดเวลาหนึ่ง ระหว่างที่ทำการสังเกต

Data censoring ประเภทต่าง ๆ

จากรูปแสดงตัวอย่างการเกิดเหตุการณ์และการเซ็นเซอร์แต่ละประเภท โดยในแกนตั้งจะแสดงถึงตัวอย่าง (instance) แต่ละตัวอย่าง และแกนนอนแสดงระยะเวลา โดยเส้นสีฟ้าสองเส้น แสดงจุดเริ่มต้นของการสังเกตและจุดสิ้นสุดของการสังเกต โดยแบ่งการเกิดขึ้นของกรณีต่าง ๆ ได้ ดังนี้

ตัวอย่างที่ 1 คือ กรณีที่เหตุการณ์ที่เราสนใจเกิดขึ้นระหว่างการทำการสังเกต กรณีนี้จะไม่ถือว่าเป็นข้อมูลเซ็นเซอร์ เพราะเรารู้ระยะเวลาการเกิดขึ้นของเหตุการณ์ที่แน่นอน

ตัวอย่างที่ 2, 3 เป็นกรณีที่เกิด right-censoring ขึ้น เนื่องจาก เราไม่รู้จุดสิ้นสุดของเหตุการณ์ เนื่องจากเหตุการณ์เกิดขึ้นนอกช่วงเวลาการสังเกต หรือยังไม่เกิดเหตุการณ์ขึ้น

ตัวอย่างที่ 4 เป็นกรณีที่เกิด left-censoring ขึ้น เนื่องจากไม่ทราบเวลา ณ จุดเริ่มต้น หรือ จุดกำเนิดของตัวอย่างนี้ จึงไม่สามารถทราบช่วงเวลาทั้งหมดที่ตัวอย่างนี้มีชีวิตอยู่ จนกระทั่งมาพบเหตุการณ์นั้นในระหว่างการสังเกตได้

ตัวอย่างที่ 5 เป็นกรณีที่เราไม่ทราบเวลาแน่นอนของการเกิดเหตุการณ์ ทราบแค่ว่าเหตุการณ์เกิดขึ้นในช่วงเวลานี้ เนื่องจากเราอาจจะไม่ได้ทำการสังเกตตัวอย่างนั้นตลอดเวลา เช่น นัดตรวจคนไข้ 2 อาทิตย์ครั้ง ก็อาจจะทำให้ตรวจพบ ณ วันตรวจ แต่ในความเป็นจริง คนไข้อาจจะเริ่มป่วยระหว่างสองอาทิตย์ที่ผ่านมาก็ได้ ซึ่งเราไม่ทราบว่าเป็นวันไหน เพราะไม่ได้ทำการตรวจทุกวัน

ทำไมต้องใช้ Survival Analysis

ลักษณะของการเซ็นเซอร์แบบ right-censoring ถูกพบค่อนข้างบ่อยในหลายกรณี เช่น การย้ายค่ายของลูกค้าที่ใช้บริการค่ายมือถือของเราปัจจุบัน เราไม่สามารถทราบได้เลยว่า ลูกค้าคนนั้นจะย้ายค่ายจากเราไปหรือไม่และเมื่อไหร่ ซึ่งทำให้ไม่สามารถรู้ถึงคำตอบจริง ๆ ของลูกค้าแต่ละคน เราไม่สามารถแบ่งลูกค้าเป็นสองประเภทว่า ย้ายค่าย หรือ ไม่ย้ายค่ายได้ชัดเจน เพราะจริง ๆ แล้วทุกคนมีโอกาสย้ายค่ายได้ตลอดเวลา แค่ไม่รู้ว่าเหตุการณ์นั้นจะเกิดขึ้นเมื่อไหร่  ในการวิเคราะห์ข้อมูลที่มีการเซ็นเซอร์ลักษณะนี้มีข้อพึงระวังอยู่ ซึ่งหนึ่งในข้อผิดพลาดที่นักวิเคราะห์ข้อมูลมักจะทำ คือ การเลือกที่จะไม่สนใจตัวอย่างที่ถูกเซ็นเซอร์โดยการตัดตัวอย่างเหล่านั้นทิ้งแล้ววิเคราะห์เฉพาะตัวอย่างข้อมูลที่สังเกตพบเหตุการณ์ในช่วงเวลาที่ศึกษาเท่านั้น ทีนี้ลองมาดูตัวอย่างกัน

สมมุติว่ากลุ่มประชากรที่เราศึกษา ประกอบมาจากกลุ่มประชากรย่อยที่มีลักษณะแตกต่างกันสองกลุ่ม ได้แก่ กลุ่ม A และ กลุ่ม B โดยประชากรกลุ่ม A มีอายุการมีชีวิตอยู่ที่สั้น เฉลี่ยประมาณ 2 เดือน เทียบกับกลุ่มประชากร B ที่มีอายุเฉลี่ยนานถึง 12 เดือน ซึ่งผู้วิจัยจะไม่ได้ทราบถึงข้อเท็จจริงนี้มาก่อน และเมื่อสิ้นสุดช่วงเวลาสังเกตที่เวลา 10 เดือน (t=10) เราจะต้องหาอายุเฉลี่ยของประชากรทั้งหมด จะมีวิธีการคำนวณอย่างไร

ในรูปด้านล่างนี้ เส้นสีแดงแสดงถึงอายุขัยของแต่ละคน ในกรณีที่เหตุการณ์การตายได้ถูกสังเกตพบในช่วงเวลาศึกษา ส่วนเส้นสีน้ำเงินแสดงถึงอายุขัยของคนที่ไม่สังเกตุพบเหตุการณ์ในช่วงเวลา 10 เดือนที่ศึกษา (right-censored individuals) หากเราลองประมาณค่าเฉลี่ยด้วยการตัดข้อมูล right-censored ทิ้ง แล้วคำนวณค่าเฉลี่ยจากตัวอย่างที่เหลือ โดยคำนวณเฉพาะเส้นสีแดงเท่านั้น จะพบว่าเราทำการประเมินค่าเฉลี่ยต่ำกว่าความเป็นจริง เนื่องจากเราตัดเส้นสีน้ำเงินที่ไม่รู้ว่าเวลาจริงออกไป แต่เรารู้ว่าอย่างต่ำคือ 10 เดือน

แล้วถ้าเราคิดค่าเฉลี่ยอายุขัยจากอายุขัยทั้งหมดที่สังเกตได้ในช่วงเวลา โดยการรวมอายุขัยปัจจุบัน ณ สิ้นสุดช่วงเวลาสังเกตของตัวอย่างที่ถูกเซ็นเซอร์ทางด้านขวา (Right-censored) ซึ่งถ้ามาดูค่าอายุขัยจริงของตัวอย่างที่ไม่ได้พบเหตุการณ์ในช่วงเวลาสังเกตแสดงในรูปด้านล่าง ก็จะเห็นว่าเราก็ยังประมาณค่าเฉลี่ยได้ต่ำกว่าความเป็นจริงอยู่ดี เพราะข้อมูลที่ถูกเซ็นเซอร์ (เส้นสีน้ำเงิน) มีค่าอายุขัยจริงที่เยอะกว่าช่วงเวลาในการสังเกตมาก ทำให้ค่าเฉลี่ยจริง ๆ มีค่ามากกว่าการคิดด้วยวิธีนี้

ดังนั้นข้อมูลลักษณะนี้ ที่มีการพบข้อมูลที่ถูกเซ็นเซอร์จำนวนมาก หากเราใช้วิธีการทำ Regression Analysis ธรรมดา ซึ่งไม่ได้เอาข้อมูลที่ถูกเซ็นเซอร์มาคิดด้วย ในการวิเคราะห์และทำนายเวลาที่จะเกิดเหตุการณ์ ก็อาจจะได้ผลที่ไม่ค่อยแม่นยำนัก

Survival Analysis จึงถูกพัฒนาขึ้นมาเพื่อแก้ปัญหาดังกล่าวนี้ นั่นก็คือการประมาณค่าบางอย่างในกรณีที่ข้อมูลเรามีการเซ็นเซอร์เกิดขึ้น นอกจากนี้ถึงแม้ว่าข้อมูลในทุกตัวอย่างของเรามีการสังเกตพบเหตุการณ์ในช่วงเวลาศึกษาทั้งหมด การทำ Survival Analysis ก็ยังเป็นเครื่องมือที่เป็นประโยชน์ในการศึกษาอัตราการเปลี่ยนแปลงและระยะเวลาของการเกิดเหตุการณ์นั้น ๆ ได้เช่นเดียวกัน

ผู้อ่านสามารถอ่านต่อได้ใน Survival Analysis กับความท้าทายในการจัดการ Censored Data Part 2


ที่มา:

https://arxiv.org/pdf/1708.04649.pdf

https://lifelines.readthedocs.io/en/latest/Survival%20Analysis%20intro.html

https://www.slideshare.net/twbriggs/survival-analysis-for-predicting-employee-turnover

Project Manager & Data Scientist
Big Data Institute (Public Organization), BDI

แบ่งปันบทความ

กลุ่มเนื้อหา

แท็กยอดนิยม

แจ้งเรื่องที่อยากอ่าน

คุณสามารถแจ้งเรื่องที่อยากอ่านให้เราทราบได้ !
และเราจะนำไปพัฒนาบทความให้มีเนื้อหาที่น่าสนใจมากขึ้น

PDPA Icon

We use cookies to optimize your browsing experience and improve our website’s performance. Learn more at our Privacy Policy and adjust your cookie settings at Settings

Privacy Preferences

You can choose your cookie settings by turning on/off each type of cookie as needed, except for necessary cookies.

Accept all
Manage Consent Preferences
  • Strictly Necessary Cookies
    Always Active

    This type of cookie is essential for providing services on the website of the Personal Data Protection Committee Office, allowing you to access various parts of the site. It also helps remember information you have previously provided through the website. Disabling this type of cookie will result in your inability to use key services of the Personal Data Protection Committee Office that require cookies to function.
    Cookies Details

  • Performance Cookies

    This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

  • Functional Cookies

    This type of cookie enables the Big Data Institute (Public Organization)’s website to remember the choices you have made and deliver enhanced features and content tailored to your usage. For example, it can remember your username or changes you have made to font sizes or other customizable settings on the page. Disabling these cookies may result in the website not functioning properly.

  • Targeting Cookies

    "This type of cookie helps the Big Data Institute (Public Organization) understand user interactions with its website services, including which pages or areas of the site are most popular, as well as analyze other related data. The Big Data Institute (Public Organization) also uses this information to improve website performance and gain a better understanding of user behavior. Although the data collected by these cookies is non-identifiable and used solely for statistical analysis, disabling them will prevent the Big Data Institute (Public Organization) from knowing the number of website visitors and from evaluating the quality of its services.

Save settings
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.