Exploratory Data Analysis Tag - Big Data Institute

ข่าวและบทความที่เกี่ยวข้อง

บทความ

Bamboolib: หนึ่งใน Python Library ที่มีประโยชน์เป็นอย่างมากสำหรับนักวิเคราะห์ข้อมูลมือใหม่

Python Bamboolib หนึ่งใน Library ที่จะทำให้คุณมีความรู้สึกว่า ทำไมเราถึงไม่รู้จักเครื่องมือนี้มาก่อน ทำให้ผู้ใดก็สามารถทำการวิเคราะห์ข้อมูลใน Python ได้ โดยที่ไม่จำเป็นต้องเป็นโปรแกรมเมอร์ ผู้ใช้งานสามารถใช้ประโยชน์ของ Bamboolib ได้หลากหลาย ไม่ว่าจะเป็น การเตรียมข้อมูล (Data Preparation) การจัดการข้อมูล เพื่อให้สามารถนำไปใช้ประโยชน์ได้ (Data Transformation) การแสดงผลข้อมูล (Data Visualization) และ การสำรวจข้อมูลเบื้องต้น (Data Exploration)

20 September 2023

บทความ

Big Data 101

4 เหตุผลที่จะทำให้คุณตกหลุมรัก Box Plot

ในบทความนี้ ผมจะมาพาผู้อ่านทุกท่านทำความรู้จักกับ Box Plot แผนภาพอันทรงพลังที่ใช้ในการวิเคราะห์การกระจายตัวของข้อมูล บอกได้เลยว่าสามารถใช้วิเคราะห์ได้ดีไม่แพ้ Histogram เลยครับ! การวิเคราะห์การกระจายตัวของข้อมูล คำถามที่เกี่ยวข้องกับการวิเคราะห์การกระจายตัวของข้อมูล มีอยู่ในชีวิตประจำวันของเราทุกคน ยกตัวอย่างเช่น ซึ่งหลาย ๆ คน จะคุ้นเคยกับการตอบคำถามด้านบนด้วย Histogram ซึ่งก็ถือว่าเป็นตัวเลือก “คลาสสิก” เพราะทุกคนจะเคยเรียนรู้สิ่งนี้มาก่อนในวิชาคณิตศาสตร์ โดย Histogram เป็นการนำข้อมูลเชิงปริมาณ (Numerical Data) มา “นับจำนวนครั้ง” ที่พบค่าของข้อมูล ตามช่วงข้อมูลหรืออันตรภาคชั้น (Bins) และเมื่อเราสร้าง Histogram แล้ว เราสามารถตอบคำถามด้านบนได้หลากหลาย เช่น บทความนี้จะขอนำเสนอ 4 เหตุผลที่จะทำให้ผู้อ่านตกหลุมรัก Box Plot โดยจะมีการอธิบายรายละเอียดวิธีการทำงานของ Box Plot ภายในเนื้อหาด้วย เริ่มต้นที่เหตุผลข้อที่หนึ่งในส่วนถัดไปกันเลยครับ ? เหตุผลข้อ 1: Box Plot ประหยัดพื้นที่ ในยุคดิจิทัลทุกวันนี้ Business Intelligence, Visual Analytics, และ Data Visualization ได้เข้ามามีบทบาทในองค์กรต่าง ๆ ทั้งเรื่องการบริหารจัดการ การดูสถานะ การวางแผน และการตัดสินใจ ทำให้พื้นที่บนหน้าจออุปกรณ์พกพาต่าง ๆ ของเรากลายเป็น Real Estate ยุคใหม่ แน่นอนว่า การนำเสนอข้อมูลอะไรที่ใช้เนื้อที่เยอะเกินไป ดูจะไม่ค่อยคุ้มเสียแล้ว ซึ่งในการแสดงข้อมูลชุดเดียวกัน Box Plot สามารถย่อส่วนพื้นที่ที่จำเป็นต่อการแสดงข้อมูลจากแผนภาพสองมิติ (2D) เหลือเพียงมิติเดียว (1D) ทำให้เป็นแผนภาพที่เหมาะกับยุคดิจิทัลที่พื้นที่บนหน้าจอของเรามีจำกัด แต่ Box Plot ที่ถูกย่อส่วนลงมาแล้ว จะยังตอบคำถามหลาย ๆ คำถามได้เหมือน Histogram หรือไม่? เรามาดูเหตุผลข้อถัดไปกันครับ เหตุผลข้อ 2: Box Plot อัดแน่นไปด้วยข้อมูล แผนภาพ Box Plot ได้ชดเชยขนาดที่เล็ก ด้วยหลักการวาดส่วนสำคัญต่าง ๆ ของกล่องด้วยปริมาณที่สำคัญทางสถิติ ทำให้ Box Plot ยังคงให้ข้อมูลและข้อสังเกตได้หลากหลายประการ แต่ก่อนอื่นเราลองมาทำความรู้จักกับส่วนประกอบต่าง ๆ ของ Box Plot กันก่อนครับ Box Plot ประกอบไปด้วยส่วนของ “กล่อง” (Box) กับส่วนของ “หนวด” (Whiskers) และมีจุด ๆ แสดงข้อมูลจริง โดยอาจอยู่ได้ทั้งในและนอกหนวด (บางครั้งเราจะเห็นบางเวอร์ชันของแผนภาพที่โชว์จุดข้อมูลนอก Whiskers อย่างเดียว ก็ยังนับเป็น Box Plot อยู่) ซึ่งตำแหน่งของ Box และ Whiskers ถูกสร้างขึ้นมาได้ โดยตัวเลขทางสถิติทั้งหมดถึง 5 ตัวด้วยกัน เรียกรวมกันว่า The Five-Number Summary ประกอบไปด้วย: เพื่อยกตัวอย่างให้เห็นภาพ สมมติว่าเรานำข้อมูลอายุขัยของประชากรเพศชาย (Life Expectancy for Males) มาวางเรียงกัน จากน้อยไปหามาก แล้วหาค่าตามหลัก The Five-Number Summary แล้วคำนวณได้ว่า ค่าเหล่านี้ถูกนำไปใช้ทำจุดสำคัญต่าง ๆ บน Box Plot เป็นกล่องและหนวดนั่นเอง ดังภาพด้านล่าง ซึ่งมีข้อสังเกตว่า หากเราลองมาใช้ตัวเลข 5 ตัวนี้ แปลผล Box Plot เบื้องต้นกัน เราจะได้ข้อสังเกตหลาย ๆ อย่างได้ไม่ด้อยไปกว่า (หรือในบางมิติ เหนือกว่า) Histogram เช่น ท่านที่ช่างสังเกตจะพบว่ามีตำแหน่งสำคัญที่ผมยังไม่ได้อธิบายใน Box Plot คือตัวเลข 44 บนหนวด Whisker ข้างซ้าย และสิ่งที่น่าสงสัยอีกประการหนึ่งคือ เหตุใดค่า 80 ที่เป็น Maximum จึงไปอยู่บนปลายหนวดข้างขวาพอดี? เป็นความบังเอิญหรือไม่? ข้อสังเกต เหล่านี้สามารถถูกอธิบายได้ว่า จริง ๆ แล้ว จาก Five-Number Summary เราจะต้องมีการคำนวณปริมาณทางสถิติเพิ่มบางประการ กล่าวคือ: เราเอาค่า IQR มาคำนวณค่าปลายหนวดทั้งสองข้าง ดังนี้: เสมือนว่าเป็นการ “ขยาย” ตัวกล่องออกไปด้านข้างด้วยความกว้าง 1.5 เท่าของกล่อง แต่ขยายไม่เกินข้อมูลสูงสุดหรือข้อมูลต่ำสุดที่มีอยู่จริง ซึ่งกฎ 1.5 * IQR ได้รับการยอมรับอย่างแพร่หลาย โดยนิยามข้อมูลที่อยู่นอกช่วง [Q1 – 1.5 * IQR, Q3 + 1.5 * IQR] ได้ว่าเป็น ค่าสุดโต่ง หรือ Outliers (คือค่าเหล่านี้ นับว่าหายากมาก ๆ) ยกตัวอย่างเช่น ถ้าข้อมูลมีการกระจายตัวแบบปกติ (Normal Distribution) ข้อมูลที่อยู่นอกช่วง Lower Whisker และ Upper Whisker จะมีเพียง 0.7% เท่านั้น จึงถูกจัดเป็น Outliers เราจะเห็นได้ว่าแผนภาพ Box Plot ถึงแม้จะมีขนาดเล็กมากเมื่อเทียบกับ Histogram แต่ให้ข้อมูลและข้อสังเกตได้น่าสนใจหลายประการ ไม่ว่าจะเป็นลักษณะการกระจายตัว เช่น ข้อมูลเบ้ซ้ายหรือเบ้ขวา, ค่ากลางของข้อมูล, ช่วงของข้อมูลส่วนใหญ่, ช่วงของข้อมูลเกือบทั้งหมด, และค่าสุดโต่ง ซึ่งข้อสังเกตหลายข้ออาจสังเกตได้ง่ายกว่า Histogram ไม่ว่าจะเป็นค่ากลางมัธยฐาน, ค่าสุดโต่ง, ช่วงของข้อมูลส่วนใหญ่ เพราะมีตำแหน่งสำคัญต่าง ๆ ที่ถูกคำนวณและถูกกำกับอยู่ในแผนภาพอย่างชัดเจน หากท่านผู้อ่านได้อ่านมาถึงจุดนี้แล้วเริ่มรู้สึกหลงรัก Box Plot ผมขอเสนอเหตุผลอีกสองข้อที่จะทำให้ Box Plot น่าใช้งานมากขึ้นไปอีก เรามาดูข้อถัดไปกันเลยครับ เหตุผลข้อ 3: Box Plot ยืดหยุ่นในการนำเสนอ เนื่องจาก Box Plot เป็นแผนภาพ 1D ทำให้มีความยืดหยุ่นและสามารถถูกนำเสนอในรูปแบบแนวนอนหรือแนวตั้งก็ได้ ผมได้แสดงตัวอย่าง Box Plot ในแนวนอนด้านบนแล้ว เรามาดูตัวอย่างการนำเสนอ Box Plot ในแนวตั้ง ซึ่งผมจะนำเสนอพร้อมกับเหตุผลข้อสุดท้ายครับ...

7 September 2022

บทความ

Big Data 101

เทคนิคการ Feature Engineering จากพิกัดละติจูด ลองจิจูด

ในปัจจุบัน เราจะพบข้อมูลพิกัดบอกตำแหน่ง ละติจูด (Latitude) และลองจิจูด (Longitude) เป็นจำนวนมาก โดยการนำไปใช้ประโยชน์เชิงวิเคราะห์นั้น หากเลือกใช้ ละติจูด และลองจิจูดเป็นสองตัวแปรแยกกันมักจะได้ผลออกมาแล้วตีความยาก ในบทความนี้จะทำการอธิบายและนำเสนอตัวอย่างวิธีการ Feature Engineering จากข้อมูลพิกัดจุด การเลือกใช้ ละติจูด และลองจิจูดเป็นสองตัวแปรแยกกันมักจะได้ผลออกมาแล้วตีความยาก การสร้าง Feature จากข้อมูลพิกัดจุด (Geospatial Data) นั้นจำเป็นต้องใช้ความเข้าใจในความสัมพันธ์จากบริบทของภูมิศาสตร์ กับโจทย์ปัญหาที่เราต้องการแก้ เช่น หากโจทย์ต้องการทำนายราคาบ้าน เราอาจจะเริ่มด้วยการคิดว่ามีปัจจัยใดบ้างที่มีผลต่อราคา เช่น ระยะทางจากสถานีรถไฟฟ้า, ระยะทางจากศูนย์กลางเมือง, ระยะห่างจากทะเล เป็นต้น ดังนั้นเราจะต้องแปลงปัจจัยดังกล่าวให้เป็นตัวเลขเพื่อนำไปใช้ในการวิเคราะห์ และนำไปใช้ประโยชน์ได้ ในบทความนี้ เราจะยกตัวอย่างการใช้ข้อมูลพิกัดจุดเพื่อใช้ทำนายราคาบ้านโดยใช้ข้อมูล Kaggle California Housing Prices ในการวิเคราะห์ ซึ่งเป็นข้อมูลสำรวจ Census ในปี 1990 แต่ละระเบียนจะเป็นข้อมูลของสิ่งปลูกสร้าง 1 บล็อก ในชุดข้อมูลนี้จะมีข้อมูลอยู่ทั้งหมด 10 คอลัมน์ แต่เราจะเลือกใช้แค่ 4 คอลัมน์ ได้แก่ รูปภาพประกอบในบทความนี้สามารถสร้างได้จากชุดคำสั่งใน Python ซึ่งผู้อ่านสามารถทำตามได้จาก House Value California: Feature Engineering หากเรานำพิกัดจุดมาใช้โดยตรงนั้นจะไม่ค่อยได้ประโยชน์เท่าไหร่ เพื่อให้เห็นภาพชัดเจนเราจะใช้ scatter plot ระหว่างตัวแปรและค่าราคาบ้าน จะเห็นได้ว่าตัวแปรละติจูดและลองจิจูด นั้นไม่ได้มีความเกี่ยวข้องกับราคาบ้านที่ชัดเจน ดังนั้นเราอาจจำเป็นต้องผ่านกระบวนการอื่นเพิ่มเติมก่อนที่จะนำในการนำตัวแปรสองตัวนี้ไปใช้ประโยชน์ได้ การใช้ Diagonal เพื่อประเมินระยะห่างจากชายฝั่ง จาก Fig.2 จะมองเห็นได้ชัดเจนว่าบ้านที่อยู่ใกล้กับชายฝั่งจะมีราคาแพงมากกว่าบ้านที่อยู่ห่างจากชายฝั่ง โดยเราสามารถแปลความใกล้กับชายฝั่งได้แบบง่ายๆ โดยการนำเอาพิกัดละติจูดและลองจิจูดมาบวกกันเป็น Feature ใหม่ที่ชื่อว่า Diagonal เมื่อย้อนกลับไปดูที่ Fig. 2 จะสามารถเห็นได้ว่าถ้าผลบวกน้อยจะใกล้ชายฝั่ง (เส้นสีเขียว) ถ้าผลบวกมากจะอยู่ห่างจากชายฝั่ง (เส้นส้ม) [1] จะเห็นได้ว่า Diagonal นั้นมีความสัมพันธ์กับราคาบ้านที่ชัดเจนขึ้นและสอดคล้องกับ Label ที่ได้มาจากคอลัมน์ ocean_proximity การคำนวณ Diagonal นั้นมีข้อดีที่ใช้ง่ายและสามารถมองเห็นได้ด้วยตาเปล่า แต่อาจจะต้องปรับการใช้ตามลักษณะรูปร่างขอเมือง ในกรณีนี้สามารถใช้ได้ดีเป็นกรณีพิเศษเนื่องจากรัฐ California มีลักษณะเป็นแนวเส้นเฉียงจากซ้ายบนลงขวาล่าง (ตามรูป) โดยในประเทศไทยนั้นมีจังหวัดที่มีรูปร่างที่เหมาะกับการใช้ Diagonal ได้แก่ กระบี่, ตรัง และสตูล เป็นต้น การใช้ Principal Component Analysis ในส่วนนี้เราจะนำการใช้ Principal Component Analysis [3]เพื่อนำแนวความคิดของการใช้ diagonal มาใช้กับเมืองที่อยู่ติดชายฝั่ง แต่อาจจะไม่ได้เฉียงจากซ้ายบนลงขวาล่าง โดยจังหวัดในประเทศไทยที่เข้าข่ายนี้ ได้แก่ ชลบุรี และ ประจวบครีขันธ์ การใช้ Principal Component Analysis (PCA) นั้นจะให้ตัวโปรแกรมหาแกนที่เหมาะสมให้เราเอง โดยหลักการคร่าวๆนั้นตัวโปรแกรมจะทำการลากเส้นบนแผนที่ (ตาม Fig.4) แล้วเลือกแกนที่มีการกระจายตัวของข้อมูลมากที่สุดเป็น PCA 1 และเลือกแกนที่ตั้งฉากกันเป็น PCA 2 จะเห็นได้ว่าค่าของ PCA 2 ที่ได้มานั้นจะมีค่าสูงเมื่อบ้านอยู่ห่างจากชายฝั่ง และต่ำเมื่อบ้านอยู่ใกล้ชายฝั่ง จึงทำให้นำมาใช้แทน Diagonal ได้ แต่วิธีการนี้ก็ยังมีข้อจำกัดอยู่ที่ว่าสามารถใช้ได้กับเมืองที่มีลักษณะเป็นแนวเฉียงเท่านั้น ซึ่งในกรณีอื่นนั้นอาจจะนำความรู้เรื่องตำแหน่งของใจกลางเมืองมาช่วยในการสร้าง Feature เพื่อนำมาใช้ประโยชน์ได้ การใช้ระยะห่างจากเมืองใหญ่ ย้อนกลับไปที่ Fig. 2 เราอาจสังเกตได้ว่าบ้านที่มีราคาสูงจะกระจุกตัวอยู่ใกล้ตัวเมือง Los Angeles และ San Francisco ซึ่งค่อนข้างสมเหตุสมผล เนื่องจากมีระยะใกล้กับสิ่งอำนวยความสะดวกและสถานที่ทำงานมากกว่า ทำให้มีความราคาแพงกว่าบ้านที่อยู่ห่างจากตัวเมือง ในกรณีนี้เราอาจจะเลือกใช้ระยะห่างจากเมืองใหญ่ถึงบ้านใช้เป็น feature ที่ใช้ในการทำนายราคาบ้านได้ โดยการคำนวณระยะทางจากพิกัดละติดจูด และ ลองจิจูด ตามหลักแล้วจะต้องใช้ฟังก์ชั่น Haversine (มีฟังก์ชั่นสำเร็จรูปใน Python – คู่มือการใช้) เพื่อการคำนวณให้แม่นยำ แต่ในกรณีนี้เราใช้เพื่อนำมาทำ Feature Engineering อาจจะไม่ต้องการความแม่นยำมาก เราอาจจะใช้สูตรพิทาโกรัส เพื่อคำนวณระยะห่างแบบง่ายๆ โดยเราจะเลือกใช้ระยะทางจากเมืองที่อยู่ใกล้บ้านที่สุดมาใช้คำนวณได้ สรุปผล การทำ Feature Engineering นั้น สิ่งที่จะต้องคำนึงถึงเป็นอย่างแรกคือลักษณะรูปร่างของเมืองและความสัมพันธ์ของข้อมูล ในบทความนี้เราได้ยกตัวอย่างรัฐ California ซึ่งมีลักษณะเฉพาะตัว โดยได้ยกตัวอย่างการทำ Feature Engineering อยู่ 3 วิธีคือ Diagonal, Principal Component Analysis และ การใช้ระยะห่างจากเมืองใหญ่ โดยเน้นวิธีการที่สามารถตีความได้ง่ายและไม่ซับซ้อน โดยในบางกรณีการนำข้อมูล Geospatial ไปใช้ยังมีวิธีอื่นที่ไม่ได้รวมไว้อยู่ในบทความนี้ เช่น Clustering, geohash [6] โดยผู้ทำการวิเคราะห์สามารถเลือกใช้ให้เข้ากับบริบทของโจทย์ อ้างอิง

28 July 2022

บทความ

Big Data 101

เรียนรู้วิธีการสร้าง Interactive Visualization ด้วย Plotly ที่ซับซ้อนมากขึ้น

เจาะลึกไปถึงการตรวจสอบลักษณะข้อมูลเบื้องต้นและการสร้าง Visualization ที่ซับซ้อน ด้วย Plotly โดยประยุกต์ใช้กับข้อมูลอนุกรมเวลา (Time Series)

7 September 2021

บทความ

Big Data 101

เรียนรู้วิธีการสร้าง Interactive Visualization ด้วย Plotly

หนึ่งในขั้นตอนของการวิเคราะห์ข้อมูลที่สำคัญคือการสำรวจและตรวจสอบข้อมูลเบื้องต้น อาทิ ข้อมูลเป็นข้อมูลประเภทไหน ข้อมูลมีการกระจายตัวเป็นอย่างไร แต่ละตัวแปรมีความสัมพันธ์อย่างไรเทียบกับข้อมูลทั้งหมด เพราะจะช่วยทำให้การตั้งสมมุติฐานของโจทย์ที่ต้องการวิเคราะห์ได้ดีขึ้น ซึ่งปกติแล้วจะนำข้อมูลมาแสดงผลในรูปแบบของภาพนิทัศน์ (visualization) เช่น แผนภูมิแท่ง (bar chart), แผนภูมิเส้น (line chart), แผนภูมิจุด (scatter plot) เป็นต้น สำหรับเครื่องมือการสร้างแผนภูมิใน Python นั้น มีหลายวิธี สำหรับบทความที่ทางเว็บไซต์ได้เขียนไปในก่อนหน้านี้นั้น ได้ใช้การแสดงผลด้วย Matplotlib library เช่น แผนภูมิอนุกรมเวลา และแผนภูมิเส้น ซึ่งสามารถแสดงผลความสัมพันธ์เบื้องต้นได้ง่ายและรวดเร็ว อย่างไรก็ตาม library ดังกล่าว มีข้อจำกัดในด้านการสร้างและแสดงผลที่โต้ตอบกับผู้ใช้งานได้ง่าย ถึงแม้ว่าจะมีความสามารถในการนำทางแบบโต้ตอบ (Interactive Toolbar) ของ Matplotlib library ที่ช่วยให้ผู้ใช้สามารถดูข้อมูล ขยายภาพเฉพาะจุด เก็บแผนภูมิดังกล่าวเป็นไฟล์รูป เทียบกับทาง Plotly library มีความสามารถที่น่าสนใจเพิ่มเติม เช่น กล่องข้อความหรือกลุ่มของข้อมูลสั้น ๆ (Tooltip) ทั้งแบบทีละจุดข้อมูลและแบบเปรียบเทียบข้อมูลทั้งหมด และการเลือกดูข้อมูลด้วยตัวกรองข้อมูล (Filter) เครื่องมือการสร้างแผนภูมิใน Python ที่เป็นที่นิยมเช่น Matplotlib นั้น มีข้อจำกัดในด้านการแสดงผลที่โต้ตอบกับผู้ใช้งาน (interactive visualization) เช่น ไม่สามารถสร้างกล่องข้อความหรือกลุ่มของข้อมูลสั้น ๆ (Tooltip) ทั้งแบบทีละจุดข้อมูลและแบบเปรียบเทียบข้อมูลทั้งหมด และการเลือกดูข้อมูลด้วยตัวกรองข้อมูล (Filter) ในบทความนี้ ผู้เขียนขอแนะนำ Plotly library ซึ่งเป็นเครื่องมือในการสร้างแผนภูมิที่มีความสามารถในการแสดงผลที่โต้ตอบกับผู้ใช้งาน ได้หลายหลาย มีแผนภูมิมากกว่า 40 ประเภท สามารถนำแผนภูมิที่ทำเสร็จสิ้นแล้วไปเพิ่มลงในเว็บไซด์ที่ต้องการได้ง่ายด้วย Python framework ที่ชื่อว่า “Plotly Dash” และที่สำคัญสามารถนำไปใช้งาน แก้ไข และเผยแพร่ได้อย่างเสรี (open source library) การติดตั้ง library สำหรับตัวอย่างในบทความนี้ ผู้เขียนได้ใช้งานบน Jupyter Notebook ซึ่งเป็นสิ่งแวดล้อมสำหรับการพัฒนาแบบเบ็ดเสร็จ (IDE) ที่นิยมสำหรับการวิเคราะห์ข้อมูลโดยการใช้ภาษา Python โดยสามารถทำติดตั้งได้โดยการใช้ command ด้านล่างหรืออ่านเพิ่มเติมได้ ที่นี่ ข้อมูล ผู้เขียนใช้ข้อมูลยอดขายของวีดิโอเกมจากเว็บไซต์ vgchartz.com โดยคัดเลือกเฉพาะวีดิโอเกมที่ขายได้มากกว่าหนึ่งแสนตลับ โดยสามารถอ่านรายละเอียดที่มาของข้อมูลได้ ที่นี่ Rank Name Platform Year Genre Publisher NA_Sales EU_Sales JP_Sales Other_Sales Global_Sales 1 Wii Sports Wii 2006 Sports Nintendo 41.49 29.02 3.77 8.46 82.74 2 Super Mario Bros. NES 1985 Platform Nintendo 29.08 3.58 6.81 0.77 40.24 3 Mario Kart Wii Wii 2008 Racing Nintendo 15.85 12.88 3.79 3.31 35.82 4 Wii Sports Resort Wii 2009 Sports Nintendo 15.75 11.01 3.28 2.96 33 5 Pokemon Red/Pokemon Blue GB 1996 Role-Playing Nintendo 11.27 8.89 10.22 1 31.37 ตัวอย่างข้อมูลยอดขายของวีดิโอเกมจากเว็บไซต์ vgchartz.com จากการดูตัวอย่างข้อมูลจะพบว่า มีตัวแปรต่อเนื่องดังนี้ ลำดับของเกมที่ขายได้ตามจำนวนยอดขายทั้งหมด (Rank) ปีที่เกมดังกล่าวถูกวางขาย (Year) ยอดขายของทวีปอเมริกาเหนือ (NA_Sales) ยอดขายของทวีปยุโรป (EU_Sales) ยอดขายของประเทศญี่ปุ่น (JP_Sales) ยอดขายประเทศอื่น ๆ (Other_Sales) ยอดขายรวม (Global_Sales) และมีตัวแปรแบบจัดกลุ่มดังนี้ ชื่อเกม (Name) แพลตฟอร์มที่เกมถูกเอาไปเล่น (Platform) ประเภทของเกม (Genre) ชื่อบริษัทที่พัฒนาเกม (Publisher) ตัวอย่างการใช้ plotly สำหรับบทความนี้ ทางผู้เขียนสร้างแผนภูมิด้วย plotly.express ซึ่งเป็นตัว function ที่เขียนมาให้สร้างสร้างแผนภูมิ Plotly ได้ง่ายขึ้น โดยจะเริ่มต้นด้วยการวาดกราฟแท่ง (Bar Graph) โดยทางผู้เขียนต้องการทราบว่า บริษัทที่พัฒนาเกม (Publisher) ขนาดใหญ่ที่ขายเกมมากกว่า 500 เกม ชอบสร้างเกมประเภทไหน (Genre) จากแผนภูมิตัวอย่าง จะเห็นจากแผนภูมิได้ว่า บริษัท Electronic Arts จะชอบสร้างเกมประเภท Sports เป็นพิเศษ ซึ่ง tooltip ช่วยให้ผู้ใช้สามารถโต้ตอบกับแผนภูมิด้วยเมาส์ และเห็นข้อมูลเพิ่มเติมในเฉพาะสิ่งที่สนใจได้อีกด้วย ในกรณีนี้ พบว่า Electronic Arts ได้ทำเกมประเภท Sports ออกมาแล้วกว่า 561 เกม ในขณะที่ บริษัท Namco Bandai Games จะชอบสร้างเกมประเภท Sports มีสัดส่วนการสร้างเกมประเภท Role-Playing เทียบกับเกมประเภทอื่นสูงกว่าบริษัทอื่น ตัวอย่างต่อไปจะใช้กราฟเส้น (Line Graph) โดยในกราฟนี้ ทางผู้เขียนต้องการทราบว่า ในแต่ละปี (Year) เกมประเภทไหน (Genre) ถูกนำมาวางขายเยอะที่สุด จากแผนภูมิตัวอย่าง นอกจากการแสดงผลของแนวโน้มโดยรวมระหว่างความสัมพันธ์ของประเภทของเกมเทียบเป็นรายปี เมื่อทำการเลือกดูเฉพาะกลุ่มและทำการเลือกการเปรียบเทียบข้อมูลด้วย tooltip ทำให้เห็นได้ว่าเกมประเภท Racing กับ Platform ขายได้ดีและไปในทิศทางเดียวกันในช่วงระหว่างปี 2000 – 2005 หลังจากนั้นเกมประเภท Role-Playing กับ Puzzle กลับได้รับความนิยมมากกว่าและมียอดขายไปทิศทางเดียวกันในช่วงระหว่างปี 2005 – 2010 ตัวอย่างสุดท้ายจะวาดแผนภูมิจุด (Scatter Graph) ของเกมที่มียอดขายสูงสุด...

1 March 2021

รู้จัก BDI

Organization

Policy and Plan

Personnel

Operations