สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

Weerapat Satitkanitkul

Senior Data Scientist at Big Data Institute (Public Organization), BDI

Publishing Time

Jul 28, 2022 -
Big Data 101

เทคนิคการ Feature Engineering จากพิกัดละติจูด ลองจิจูด

ในปัจจุบัน เราจะพบข้อมูลพิกัดบอกตำแหน่ง ละติจูด (Latitude) และลองจิจูด (Longitude) เป็นจำนวนมาก โดยการนำไปใช้ประโยชน์เชิงวิเคราะห์นั้น หากเลือกใช้ ละติจูด และลองจิจูดเป็นสองตัวแปรแยกกันมักจะได้ผลออกมาแล้วตีความยาก ในบทความนี้จะทำการอธิบายและนำเสนอตัวอย่างวิธีการ Feature Engineering จากข้อมูลพิกัดจุด การเลือกใช้ ละติจูด และลองจิจูดเป็นสองตัวแปรแยกกันมักจะได้ผลออกมาแล้วตีความยาก การสร้าง Feature จากข้อมูลพิกัดจุด (Geospatial Data) นั้นจำเป็นต้องใช้ความเข้าใจในความสัมพันธ์จากบริบทของภูมิศาสตร์ กับโจทย์ปัญหาที่เราต้องการแก้ เช่น หากโจทย์ต้องการทำนายราคาบ้าน เราอาจจะเริ่มด้วยการคิดว่ามีปัจจัยใดบ้างที่มีผลต่อราคา เช่น ระยะทางจากสถานีรถไฟฟ้า,...

Sep 28, 2021 -
Big Data 101

Bayesian Trap: กับดักจากความแม่นยำ

ถ้าหากว่าคุณเข้ารับการตรวจเลือด เพื่อวินิจฉัยโรค ๆ หนึ่ง แล้วผลออกมาเป็นบวก…คำถามที่เราอาจจะสงสัยคือว่า โอกาสที่เราจะเป็นโรคนั้นจริง ๆ เป็นเท่าไหร่? เราจะมาลองทำการคำนวณค่าความน่าจะเป็นนี้กัน และทำความรู้จักกับ Bayesian Trap เพื่อเสริมสร้างความเข้าใจของเราในการตีความค่าความแม่นยำ (accuracy) ให้ได้ลึกซึ้งมากยิ่งขึ้น กรณีตัวอย่าง (Case Study) : กับดักของเบย์เซียน (Bayesian Trap) ในกรณีที่ผลตรวจเลือดของเราเป็นบวก เพื่อที่จะหาค่าความน่าจะเป็นที่เราจะเป็นโรคนี้จริงๆ เราจำเป็นที่จะต้องรู้ความแม่นยำของผลตรวจเลือดครั้งนี้ก่อน ถ้าหากเรารู้ว่าผลเลือดนี้มีความแม่นยำเป็น 99% หลาย ๆ ท่านอาจจะคิดว่า...

Jun 29, 2021 -
Big Data 101

การคำนวนผลที่ได้จากนโยบายด้วย Causal Impact Analysis

ไม่ว่าจะเป็นองค์กรของรัฐบาลหรือบริษัทเอกชน ผู้ที่มีอำนาจตัดสินใจย่อมต้องการวัดผลที่ได้รับจากนโยบายหรือโครงการที่ได้นำมาใช้เพื่อประเมินว่าผลที่ได้รับนั้นคุ้มค่ากับค่าใช้จ่ายในการดำเนินนโยบายหรือไม่ โดยวันนี้เราจะมาทำความรู้จักกับการทำ Causal Impact Analysis ตัวอย่างในวันนี้เราจะทำการวิเคราะห์ผลกระทบต่อราคาหุ้นของเครือ Volkswagen หลักจากที่ถูกฟ้องร้องเรื่องละเมิดกฎหมายควบคุมมลพิษ เหตุการณ์ครั้งนี้เป็นที่รู้จักกันในชื่อว่า Volkswagen Emission Scandal โดยปกติแล้ว คำถามประเภทนี้เราจะนำข้อมูลจากกลุ่มตัวอย่างที่ไม่ได้รับผลกระทบมาเปรียบเทียบ แต่ในกรณีนี้นั้นเป็นไปไม่ได้ ดังนั้นเราจะใช้ข้อมูลที่มีก่อนเกิดเหตุการณ์เพื่อมาใช้ทำนายค่าชี้วัดหลังจากเกิดเหตุการณ์ และนำผลมาเปรียบเทียบ Causal Impact Analysis: Simple Model เราจะใช้ R programming เพื่อทำการวิเคราะห์ในบทความนี้ เราจะเริ่มโดยการ plot ข้อมูลราคาปิดตลาดต่อหุ้นของ...

Sign up to join Big Data Community Thailand

Make comments, write articles, and contribute to our community.