Data Science Tag - Big Data Institute

ข่าวและบทความที่เกี่ยวข้อง

บทความ

BDI MOU GSB ผนึกกำลังส่งเสริมการใช้ประโยชน์จากข้อมูลขนาดใหญ่ วิเคราะห์ครอบคลุมทุกมิติ สู่การกำหนดนโยบาย ขับเคลื่อนองค์กรและสังคมไทยอย่างยั่งยืน

1 กรกฎาคม 2568, กรุงเทพฯ – สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน) หรือ BDI โดยนายสุธี อุไรวิชัยกุล รองผู้อำนวยการสถาบันข้อมูลขนาดใหญ่ พร้อมด้วยนายมานะ ทรวงทองหลาง รองผู้อำนวยการธนาคารออมสิน (GSB) ร่วมลงนามบันทึกข้อตกลงความร่วมมือ (MOU) ด้าน Data Platform ในการพัฒนาศักยภาพด้านการใช้ประโยชน์จากข้อมูลขนาดใหญ่และเทคโนโลยีที่เกี่ยวข้อง เพื่อส่งเสริมให้เกิดความยั่งยืนในการบริหารจัดการข้อมูลในหน่วยงานภาครัฐและช่วยขับเคลื่อนนโยบายดิจิทัลของประเทศให้เกิดผลจริง โดยมีนางวรพิชญา ระเบียบโลก ผู้อำนวยการฝ่ายบริการวิเคราะห์ข้อมูล BDI และนางพัชรี ชาภิมล ผู้อำนวยการฝ่ายบริหารข้อมูลสารสนเทศ GSB ร่วมเป็นสักขีพยาน ณ ธนาคารออมสินสำนักงานใหญ่ เขตพญาไท นายสุธี กล่าวว่า BDI เป็นหน่วยงานของรัฐที่มีภารกิจในการพัฒนาบุคลากรภาครัฐในการใช้งานข้อมูลขนาดใหญ่ รวมถึงการให้คำปรึกษาและการสร้างความเข้าใจในการใช้เทคโนโลยีที่เกี่ยวข้อง เพื่อตอบโจทย์การพัฒนาประเทศอย่างยั่งยืน ขณะเดียวกันธนาคารออมสิน เป็นองค์กรที่มุ่งมั่นเป็นผู้นำในการส่งเสริมการออม และสร้างความมั่นคงทางการเงินให้กับประชาชน ผ่านการใช้เทคโนโลยีและนวัตกรรมในการพัฒนาผลิตภัณฑ์และบริการที่ตอบสนองความต้องการของลูกค้า ความร่วมมือในครั้งนี้ จึงเป็นก้าวสำคัญในการเสริมสร้างความแข็งแกร่งในด้านการบริหารจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ในองค์กร ด้านการพัฒนาบุคลากรที่มีความเชี่ยวชาญ และด้านการออกแบบโครงสร้างพื้นฐานที่รองรับการใช้งานข้อมูลในอนาคต โดยความร่วมมือที่ดำเนินการจะครอบคลุม 3 ด้านหลัก คือ 1. การแลกเปลี่ยนความรู้และประสบการณ์ เพื่อร่วมกันพัฒนาแพลตฟอร์มการจัดการข้อมูลและการให้คำปรึกษาในการใช้ข้อมูลขนาดใหญ่ 2. การพัฒนาทักษะของบุคลากร ในการใช้ข้อมูลขนาดใหญ่ผ่านการฝึกอบรมที่เป็นลักษณะแบบ Hands on Training และ 3. การวิเคราะห์และจัดทำโครงสร้างพื้นฐานของแพลตฟอร์มการจัดการข้อมูล ที่สามารถรองรับความต้องการของธนาคารออมสินและการใช้ประโยชน์จากข้อมูลได้อย่างมีประสิทธิภาพ การดำเนินงานที่เกิดขึ้น จึงไม่เพียงแต่เสริมสร้างศักยภาพทางด้านเทคโนโลยี แต่ยังเป็นการผลักดันให้เกิดองค์กรที่พร้อมขับเคลื่อนด้วยข้อมูล (Data-Driven Organization) โดยการพัฒนากระบวนการและการใช้เทคโนโลยีอย่างครบวงจร และยังเป็นการสนับสนุนการพัฒนานวัตกรรมในภาครัฐและธนาคารออมสินโดยเฉพาะในด้านการใช้ข้อมูลเพื่อการวิเคราะห์และพยากรณ์ ที่จะช่วยให้การตัดสินใจและการให้บริการต่าง ๆ เป็นไปอย่างมีประสิทธิภาพ ตอบโจทย์ความต้องการของประชาชนอย่างสูงสุด “ด้วยความเชี่ยวชาญของ BDI ในการให้คำปรึกษาด้าน Big Data และเทคโนโลยีข้อมูลขั้นสูง ผสานกับศักยภาพและประสบการณ์ของธนาคารออมสินในการดำเนินงาน ที่ให้ความสำคัญกับการเป็นธนาคารเพื่อสังคม (Social Bank) ที่มุ่งเน้นการลดความเหลื่อมล้ำ สร้างความเป็นธรรมในสังคม และสร้างผลกระทบเชิงบวกต่อสังคมในด้านต่าง ๆ จะทำให้ความร่วมมือครั้งนี้นำไปสู่การส่งเสริมการใช้ประโยชน์จากข้อมูลขนาดใหญ่ ทั้งในเชิงเทคนิคและเชิงนโยบาย เพื่อพัฒนาองค์กรและสังคมไทยอย่างยั่งยืนต่อไปในอนาคต” รองผู้อำนวยการ BDI กล่าวทิ้งท้าย

1 July 2025

บทความ

Big Data 101

คนจนแต่ละพื้นที่ต้องการความช่วยเหลืออย่างไร? หา insight จากข้อมูลด้วยเทคนิค Data Science

ปัญหาความยากจนเป็นปัญหาสำคัญที่ส่งผลกระทบต่อการพัฒนาทางเศรษฐกิจและสังคมของประเทศไทยมาอย่างต่อเนื่อง แม้ในช่วงหลายทศวรรษที่ผ่านมา ประเทศไทยจะมีการเติบโตทางเศรษฐกิจและความพยายามของภาครัฐในการยกระดับคุณภาพชีวิตของประชาชน แต่ยังคงมีประชาชนจำนวนไม่น้อยที่ยังประสบปัญหาด้านรายได้ ความไม่เท่าเทียมในการเข้าถึงทรัพยากรและบริการพื้นฐาน ซึ่งสะท้อนให้เห็นถึงความเหลื่อมล้ำที่ยังฝังรากลึกในโครงสร้างสังคมไทย การแก้ปัญหาความยากจนและยกระดับคุณภาพชีวิตประชาชนด้วยระบบ TPMAP ระบบบริหารจัดการข้อมูลการพัฒนาคนแบบชี้เป้า (TPMAP: Thai People Map and Analytics Platform) พัฒนาขึ้นโดยสำนักงานสภาพัฒนาการเศรษฐกิจและสังคมแห่งชาติ หรือ สภาพัฒน์ (สศช.) และศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) เพื่อเป็นกรณีตัวอย่างของการพัฒนาระบบ Big Data ของภาครัฐ ตามมติของคณะกรรมการบริหารราชการแผ่นดินเชิงยุทธศาสตร์ ในเวลาต่อมาได้นำระบบดังกล่าวมาใช้ในการบริหารราชการแผ่นดินเพื่อยกระดับคุณภาพชีวิตของประชาชน ทั้งในด้านการเพิ่มรายได้ ลดภาระค่าครองชีพ และเพิ่มโอกาสด้านอาชีพ Thai People Map and Analytics Platform – TPM★P ระบบ TPMAP สามารถเข้าถึงผ่านเว็บไซต์ https://www.tpmap.in.th/ แสดงข้อมูล “คนจนเป้าหมาย” จากกลุ่มคนที่ได้รับการสำรวจความจำเป็นพื้นฐาน (จปฐ.) จากกรมการพัฒนาชุมชน กระทรวงมหาดไทย ที่ถูกนำมาวิเคราะห์ด้วยดัชนีความยากจนหลายมิติว่ายากจน และข้อมูลผู้ลงทะเบียนสวัสดิการแห่งรัฐ กระทรวงการคลัง ในระยะแรกกลุ่มคนจนเป้าหมายของ TPMAP คือกลุ่มคนที่ได้รับการสำรวจ จปฐ. ว่ายากจน (survey-based) และเป็นผู้ที่มาลงทะเบียนเพื่อรับบัตรสวัสดิการแห่งรัฐ (registered based) ซึ่งต่อมาได้ขยายกลุ่มคนจนเป้าหมายเป็นทั้งกลุ่มที่ลงทะเบียนและไม่ได้ลงทะเบียนบัตรสวัสดิการฯ แบบสำรวจ จปฐ. และดัชนีความยากจนหลายมิติ วัดความยากจนอย่างไร การสำรวจข้อมูลความจำเป็นพื้นฐาน (จปฐ.) คือ ข้อมูลในระดับครัวเรือนที่แสดงถึงสภาพความจำเป็นพื้นฐานของคนในครัวเรือนในด้านต่าง ๆ เกี่ยวกับคุณภาพชีวิตที่ได้กำหนดมาตรฐานขั้นต่ำเอาไว้ว่า คนควรจะมีคุณภาพชีวิตในแต่ละเรื่องอย่างไรในช่วงระยะเวลาหนึ่ง ๆ มีการปรับปรุงแบบสอบถามทุก ๆ 5 ปี ดำเนินการโดยกรมการพัฒนาชุมชน กระทรวงมหาดไทย เพื่อประเมินคุณภาพชีวิตของประชาชนในระดับครัวเรือน โดยมุ่งเน้นการเก็บข้อมูลในพื้นที่ชนบทและชุมชนท้องถิ่นเป็นหลัก นั่นคือ เขตชนบทและชุมชนท้องถิ่น พื้นที่ที่อยู่ภายใต้การดูแลขององค์กรปกครองส่วนท้องถิ่น เช่น องค์การบริหารส่วนตำบล (อบต.) และเทศบาลตำบลที่ยกฐานะจาก อบต. แบบสำรวจ ดัชนีความยากจนหลายมิติ (Multidimensional Poverty Index: MPI) พัฒนาโดย Oxford Poverty & Human Development Initiative และ United Nation Development Programme ซึ่ง สภาพัฒน์ได้นำมาปรับใช้กับประเทศไทย โดยอาศัยหลักการที่ว่า คนจนคือผู้ที่มีคุณภาพชีวิตต่ำกว่าเกณฑ์คุณภาพชีวิตที่ดีในมิติต่าง ๆ ซึ่ง TPMAP พิจารณาจาก 5 มิติ ได้แก่ ด้านสุขภาพ ด้านการศึกษา ด้านการเงิน ด้านความเป็นอยู่ และด้านการเข้าถึงบริการรัฐ ดังนั้น ครัวเรือนที่จน คือ ครัวเรือนที่ได้รับการสำรวจว่าจนจาก ข้อมูลความจำเป็นพื้นฐาน (จปฐ.) นั่นคือ ตกดัชนีความยากจนหลายมิติ (MPI) อย่างน้อย 1 มิติ ซึ่งหมายถึงครัวเรือนตกเกณฑ์ตัวชี้วัดที่อยู่ในมิตินั้น อย่างน้อย 1 ตัวชี้วัด และคนจนเป้าหมาย คือ คนที่อาศัยอยู่ในครัวเรือนที่ได้รับการสำรวจว่าจน ภาพรวมข้อมูลบนระบบ TPMAP จากข้อมูลการสำรวจความจำเป็นพื้นฐาน (จปฐ.) ซึ่งครอบคลุมประชากรราว 35 ล้านคนต่อปี พบว่า สัดส่วนของคนจนเป้าหมาย มีแนวโน้มลดลงในช่วงปี 2560–2562 โดยลดจาก อย่างไรก็ตาม เนื่องจากไม่มีข้อมูลในช่วงปี 2563–2564 จึงไม่สามารถติดตามแนวโน้มในช่วงเวลาดังกล่าวได้โดยตรง กระทั่งปี 2565 พบว่า สัดส่วนคนจนเป้าหมายเพิ่มขึ้นเป็น 9.52% (ประมาณ 3,438,515 คน) ซึ่งอาจเป็นผลกระทบจากสถานการณ์การแพร่ระบาดของโควิด-19 ต่อมาในปี 2566 ตัวเลขนี้ลดลงอย่างชัดเจนเหลือเพียง 1.81% (ประมาณ 655,365 คน) แต่ในปี 2567 สัดส่วนของคนจนเป้าหมายกลับเพิ่มขึ้นอีกครั้งเป็น 7.39% (ประมาณ 2,568,168 คน) อันเป็นผลจากการ ปรับนิยาม และการ เพิ่มตัวชี้วัด ที่ใช้วิเคราะห์คนจนเป้าหมายในมิติต่าง ๆ ข้อมูลเหล่านี้ชี้ให้เห็นถึงความจำเป็นในการออกแบบมาตรการลดความเหลื่อมล้ำอย่างจำเพาะ โดยคำนึงถึงทั้ง มิติปัญหา และ บริบทพื้นที่ เพื่อให้ความช่วยเหลือสามารถเข้าถึงผู้ที่มีความต้องการได้อย่างตรงจุดและมีประสิทธิภาพมากที่สุด ปัจจัยที่มักจะขาดแคลนร่วมกันคืออะไรบ้าง? หาความสัมพันธ์ของตัวชี้วัดด้วย Pearson’s correlation ความยากจนไม่ใช่เพียงการขาดรายได้ แต่เป็นชุดของปัจจัยที่ขาดแคลนร่วมกัน ในการทำความเข้าใจปัญหาความยากจนอย่างรอบด้าน จำเป็นต้องวิเคราะห์ความเชื่อมโยงระหว่างตัวชี้วัดด้านเศรษฐกิจ สังคม สุขภาพ และการศึกษา การนำ Pearson’s correlation coefficient มาใช้ช่วยให้เห็นความสัมพันธ์ระหว่างตัวแปรต่าง ๆ อย่างชัดเจน และสามารถระบุได้ว่าปัจจัยใดมักเกิดร่วมกันในกลุ่มประชากรที่มีความเปราะบาง ซึ่งเป็นประโยชน์ต่อการวางแผนเชิงนโยบายที่ตรงจุดและมีประสิทธิภาพ ซึ่งจากผลการวิเคราะห์ พบว่าตัวชี้วัดบางคู่มีค่าสหสัมพันธ์สูงอย่างมีนัยสำคัญ (r > 0.8) ตัวอย่างเช่น ด้านสุขภาพ ในพื้นที่จังหวัดหนึ่ง ๆ ครัวเรือนที่ขาดความรู้ในการใช้ยาเพื่อบำบัดบรรเทาอาการเจ็บป่วยเบื้องต้นอย่างเหมาะสม มักจะเป็นครัวเรือนเดียวกับที่ขาดการจัดการด้านสุขภาพและความเป็นอยู่ในด้านอื่น ๆ ร่วมด้วย เช่น ขาดความรู้ในการป้องกันอุบัติภัยและภัยธรรมชาติ ไม่จัดบ้านให้สะอาดและถูกสุขลักษณะ มีสมาชิกในบ้านสูบบุหรี่หรือดื่มสุรา รวมถึงไม่มีการเก็บออมเงินและขาดรายได้ที่มั่นคง ซึ่งสะท้อนให้เห็นว่า ความรู้และพฤติกรรมด้านสุขภาพที่ดี ไม่ได้แยกขาดออกจากกัน แต่มักเกิดร่วมกันเป็นกลุ่มของความเปราะบางในชีวิตประจำวัน ด้านการมีงานทำและรายได้ ในหลายจังหวัด หากคนวัยแรงงาน (อายุ 15–59 ปี) ไม่มีอาชีพหรือรายได้ มักจะเป็นจังหวัดเดียวกันกับที่ผู้สูงอายุ (อายุ 60 ปีขึ้นไป) ก็ไม่มีรายได้หรืออาชีพเช่นกัน และยังพบว่าจำนวนผู้ถือบัตรสวัสดิการแห่งรัฐมีจำนวนมากในพื้นที่เดียวกันด้วย ซึ่งสะท้อนให้เห็นว่า การไม่มีรายได้ในคนวัยทำงาน ไม่ได้ส่งผลเฉพาะกับตัวเขาเอง แต่ยังส่งผลต่อความสามารถในการดูแลผู้สูงอายุในครัวเรือน และเป็นภาพรวมของความยากจนในระดับครอบครัวและชุมชน นอกจากนี้ในจังหวัดที่ครัวเรือนขาดการเก็บออมเงิน มักจะเป็นครัวเรือนเดียวกับที่ขาดพฤติกรรมหรือระบบสนับสนุนอื่น ๆ ที่สะท้อนถึงความมีวินัยและการวางแผนชีวิต เช่น ขาดการป้องกันอุบัติภัยอย่างถูกวิธี สมาชิกครัวเรือนมีพฤติกรรมเสี่ยงอย่างการสูบบุหรี่ ไม่มีรายได้หรืออาชีพที่มั่นคง และไม่ปฏิบัติกิจกรรมทางศาสนาอย่างสม่ำเสมอ ซึ่งทั้งหมดนี้สะท้อนถึง ความเปราะบางทั้งด้านเศรษฐกิจ สังคม และพฤติกรรมส่วนบุคคล ที่มักจะเกิดร่วมกันในครัวเรือนกลุ่มเดียวกัน การไม่มีการออมจึงไม่ใช่เพียงปัญหาทางการเงิน แต่ยังเชื่อมโยงกับการขาดวินัย ขาดความรู้ด้านสุขภาพและความปลอดภัย รวมถึงการขาดหลักยึดทางจิตใจบางประการ ซึ่งบ่งชี้ว่าการส่งเสริมการออมควรมาควบคู่กับการพัฒนาพฤติกรรมสุขภาพ การมีรายได้ที่มั่นคง และการสร้างความเข้มแข็งทางสังคมในระดับครัวเรือนอย่างเป็นระบบ ด้านสภาพแวดล้อมความเป็นอยู่ หลายจังหวัดพบว่า ครัวเรือนที่ไม่สามารถจัดการบ้านเรือนให้สะอาด เป็นระเบียบ และถูกสุขลักษณะได้ มักจะเป็นครัวเรือนเดียวกับที่มีพฤติกรรมสุขภาพและความเป็นอยู่ด้านอื่น ๆ ที่ไม่เหมาะสมร่วมด้วย เช่น สมาชิกในบ้านสูบบุหรี่ ขาดการป้องกันอุบัติภัย ไม่มีการเก็บออมเงิน รายได้ไม่มั่นคง และไม่ใส่ใจการตรวจสุขภาพหรือปฏิบัติกิจกรรมทางศาสนาอย่างสม่ำเสมอ ซึ่งสะท้อนให้เห็นว่า สุขภาวะของครัวเรือนไม่ได้จำกัดอยู่แค่เรื่องความสะอาดของบ้านเท่านั้น แต่ยังเกี่ยวพันกับวินัยทางการเงิน พฤติกรรมสุขภาพ และความเป็นอยู่โดยรวม นอกจากนี้พบว่า ครัวเรือนที่ไม่มีน้ำสะอาดเพียงพอสำหรับดื่มและบริโภคตลอดทั้งปี ก็มักจะเป็นครัวเรือนเดียวกับที่ไม่มีน้ำใช้เพียงพอในชีวิตประจำวันด้วย ซึ่งแสดงให้เห็นว่า ปัญหาด้านแหล่งน้ำในครัวเรือนไม่ได้เกิดแยกกัน แต่เป็นความขาดแคลนที่ครอบคลุมทั้งคุณภาพและปริมาณของน้ำ...

30 June 2025

บทความ

Big Data 101

Chunking: ตัวช่วยสำคัญในการจัดการข้อมูลขนาดใหญ่ใน Python DataFrame

เคยหรือไม่ที่คุณต้องเผชิญกับไฟล์ข้อมูลขนาดใหญ่จนโปรแกรมค้าง หรือหน่วยความจำ (RAM) ของเครื่องคอมพิวเตอร์ทำงานเกินขีดจำกัดจนไม่สามารถเปิดไฟล์เพื่ออ่านหรือประมวลผลได้ ปัญหานี้มักเกิดขึ้นบ่อยครั้งเมื่อต้องจัดการกับข้อมูลที่มีปริมาณมหาศาล โดยเฉพาะข้อมูลที่มีโครงสร้างซับซ้อน เช่น ไฟล์ CSV ขนาดใหญ่ ไฟล์บันทึก (Log files) ที่มีข้อมูลจำนวนมาก หรือแม้แต่ข้อมูลจากแหล่งข้อมูล Streaming ที่ไหลเข้ามาอย่างต่อเนื่อง การพยายามโหลดข้อมูลทั้งหมดเข้าสู่หน่วยความจำพร้อมกัน ไม่เพียงแต่จะทำให้เกิดปัญหาด้านทรัพยากรเท่านั้น แต่ยังส่งผลกระทบต่อประสิทธิภาพการทำงานของโปรแกรมโดยรวมอีกด้วย แล้วเราจะสามารถจัดการและประมวลผลข้อมูลขนาดใหญ่เหล่านี้ได้อย่างไรกัน วันนี้ เราจะมาทำความรู้จักกับเทคนิคสำคัญที่ช่วยให้การจัดการข้อมูลขนาดใหญ่ ให้เป็นเรื่องที่ง่ายและมีประสิทธิภาพมากยิ่งขึ้น นั่นก็คือ “Chunking” Chunking คืออะไร? Chunking คือเทคนิคการแบ่งข้อมูลที่มีขนาดใหญ่ออกเป็นชิ้นส่วนย่อย ๆ ที่มีขนาดเล็กลง (หรือ “chunks”) เพื่อให้คอมพิวเตอร์สามารถประมวลผลข้อมูลทีละส่วน โดยไม่ต้องโหลดข้อมูลทั้งหมดลงในหน่วยความจำพร้อมกัน ซึ่งจะช่วยหลีกเลี่ยงปัญหา Memory Error ที่เกิดจากการใช้หน่วยความจำที่มากเกินไป ทำไมต้องใช้ Chunking? การนำเทคนิค Chunking มาใช้ มีข้อดีสำหรับการทำงานกับ Big Data โดยตรง เช่น Chunking กับการจัดการ DataFrame ขนาดใหญ่ใน Python ในบริบทของการวิเคราะห์ข้อมูลด้วยภาษา Python นั้น DataFrame จากไลบราลี่ Pandas เป็นโครงสร้างข้อมูลแบบตารางสองมิติที่ใช้งานกันอย่างแพร่หลาย โดยมีแถว (Rows) แทนข้อมูลแต่ละรายการ และ คอลัมน์ (Columns) แทนคุณลักษณะหรือตัวแปรต่าง ๆ อย่างไรก็ตามไฟล์ข้อมูลที่บรรจุ DataFrame ที่มีจำนวนแถวและคอลัมน์มหาศาลนั้น การพยายามอ่านข้อมูลโดยใช้คำสั่งอ่านไฟล์มาตรฐาน เช่น pd.read_csv() อาจไม่สามารถทำได้ เนื่องจากปัญหา MemoryError ที่กล่าวไว้ข้างต้น ดังนั้นบทความนี้ จะแนะนำขั้นตอนการจัดการกับ DataFrame ขนาดใหญ่โดยใช้ Chunking ซึ่งประกอบด้วย 3 ขั้นตอนหลัก ดังนี้ ขั้นตอนที่ 1 มุ่งเน้นกับข้อมูลที่ตรงประเด็น (Focus on relevant data) ก่อนจะเริ่มแบ่งข้อมูลเป็น chunks การลดปริมาณข้อมูลที่ต้องโหลดในแต่ละส่วนย่อยตั้งแต่ต้น จะช่วยลดภาระการประมวลผลลงได้อย่างมาก ขั้นตอนนี้จึงมีความสำคัญไม่แพ้การทำ Chunking เริ่มต้นจากการพิจารณาว่ามีคอลัมน์ใดที่ต้องการนำไปประมวลผลบ้าง และมีเงื่อนไขอื่นใดอีกหรือไม่ที่จะสามารถกรองข้อมูลเฉพาะส่วนที่เกี่ยวข้องได้ เพื่อให้ได้ข้อมูลที่ตรงประเด็นที่สุด ในกรณีที่เราไม่ใช่เจ้าของข้อมูลโดยตรง การขอพจนานุกรมข้อมูล (Data Dictionary) จากเจ้าของข้อมูลจะช่วยให้เข้าใจความหมายของแต่ละคอลัมน์และเลือกคอลัมน์ที่จำเป็นได้อย่างถูกต้อง ตัวอย่าง: สมมติเราใช้ไฟล์ชุดข้อมูลรถยนต์มือสอง (autos.csv จาก Kaggle Used Cars Dataset) และมีโจทย์ที่ต้องการวิเคราะห์ความสัมพันธ์ระหว่างราคารถกับคุณลักษณะบางอย่างของรถยนต์มือสอง แทนที่จะโหลดคอลัมน์ทั้งหมดที่มี เราควรกำหนดตัวแปรเพื่อเลือกเฉพาะคอลัมน์ที่เกี่ยวข้องกับการวิเคราะห์ตั้งแต่ขั้นตอนการอ่านไฟล์ โดยใช้พารามิเตอร์ usecols ร่วมกับคำสั่งอ่านไฟล์ของ Pandas เช่น pd.read_csv(‘autos.csv', usecols= [‘price', ‘vehicleTypes', ‘brand', …]) นอกจากนี้ หากมีเงื่อนไขสำหรับกรองข้อมูลเบื้องต้น เช่น ต้องการเฉพาะรถยนต์ที่เสนอขาย (Angebot) เท่านั้น ในคอลัมน์ประเภทข้อเสนอ (offerType) ก็ควรกำหนดเงื่อนไขการกรองนี้ไว้ด้วย ดังภาพตัวอย่างโค้ด อย่างไรก็ตาม การกรองข้อมูลแถวในแนวยาว (เช่น df_sale = df[df[‘offerType'] == ‘Angebot']) จะทำได้ก็ต่อเมื่อ DataFrame ที่เลือกคอลัมน์แล้วมีขนาดพอดีกับหน่วยความจำ หาก DataFrame นั้นมีขนาดใหญ่มากจนเกินหน่วยความจำ ก็มีความจำเป็นจะต้องทำการ Chunking เสียก่อน ขั้นตอนที่ 2 โหลดข้อมูลทีละส่วน (Load Data in Chunks) ขั้นตอนนี้เป็นหัวใจของการทำ Chunking สำหรับไฟล์ข้อมูลขนาดใหญ่ที่ไม่สามารถโหลดเข้าหน่วยความจำทั้งหมดได้ เราจะใช้พารามิเตอร์ chunksize ในฟังก์ชันอ่านไฟล์ของ Pandas โดยระบุขนาดของ chunk ที่ต้องการ เมื่อมีการประมวลผล Pandas จะไม่ส่งคืน DataFrame ทั้งก้อนให้ทันที แต่จะส่งคืนวัตถุที่เรียกว่า Iterator ซึ่งเราสามารถวนลูปเพื่อดึงข้อมูลมาประมวลผลได้ทีละส่วน (ทีละ chunk) ตามขนาดที่ได้กำหนดไว้ จากตัวอย่างโค้ดในภาพ 1 หากไฟล์ข้อมูล มี DataFrame ขนาดใหญ่ที่ไม่สามารถกรองข้อมูลรายแถวออกมาได้ทันที เราจำเป็นจะต้องใช้พารามิเตอร์เพื่อกำหนดขนาด chunksize ร่วมกับการอ่านไฟล์ด้วย Pandas ดังนี้ df = pd.read_csv(‘autos.csv', chunksize = 50000) เมื่อมีการกำหนด chunksize=50000 คำสั่งอ่านไฟล์จะส่งคืน Iterator ซึ่งเราต้องทำการวนลูป เพื่ออ่านและประมวลผลข้อมูลทีละส่วน เช่น กระบวนการกรองข้อมูลรายแถว chunk_filtered = chunk[chunk[‘offerType'] == ‘Angebot'] โดยแต่ละส่วนจะมีข้อมูลไม่เกิน 50,000 แถว และส่งคืนกลับมาในรูปแบบ DataFrame ขนาดเล็กหนึ่งก้อน การประมวลผลจะดำเนินการไปเรื่อย ๆ จนกระทั่งอ่านข้อมูลจากไฟล์ได้ครบทุกส่วน เมื่อการประมวลผลแต่ละส่วนเสร็จสิ้น เราจะได้ DataFrame ขนาดเล็กหลาย ๆ ก้อนที่ถูกกรองเป็นที่เรียบร้อย ขั้นตอนที่ 3 บันทึกข้อมูลที่แก้ไขแล้วลงในไฟล์ใหม่ (Save modified data to new file) หลังจากที่เราได้ทำการโหลดและประมวลผลข้อมูลขนาดใหญ่ทีละส่วนตามขั้นตอนที่ 2 แล้ว ขั้นตอนสุดท้ายที่สำคัญคือการรวม DataFrame ขนาดเล็กเหล่านี้เข้าด้วยกันโดยการใช้คำสั่ง pd.concat() เพื่อสร้าง DataFrame ขนาดใหญ่ที่สมบูรณ์ซึ่งมีเฉพาะข้อมูลที่เราต้องการ เช่น df_sale = pd.concat(filtered_chunks) และบันทึกข้อมูลนี้ลงในไฟล์ใหม่ เพื่อให้สามารถนำไปใช้งานต่อในขั้นตอนการวิเคราะห์ข้อมูลขั้นสูงได้โดยไม่ต้องโหลดข้อมูลดิบขนาดใหญ่อีกต่อไป เทคนิค Chunking ใน Python Pandas ที่นำเสนอในบทความนี้ ถือเป็นแนวทางที่มีประสิทธิภาพอย่างยิ่งในการจัดการกับ DataFrame ขนาดใหญ่เกินหน่วยความจำ ด้วยสามขั้นตอนสำคัญ เราสามารถเอาชนะข้อจำกัดนี้ ทำให้การทำงานกับชุดข้อมูลขนาดมหึมาเป็นไปได้อย่างราบรื่น เป็นระบบ และพร้อมสำหรับการวิเคราะห์ Big Data โดยนักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูลสามารถประยุกต์ใช้ได้โดยไม่ต้องกังวลกับปัญหา MemoryError อีกต่อไป แหล่งข้อมูลอ้างอิง

16 May 2025

บทความ

Big Data 101

ChatGPT ใช้ยังไงให้ตอบโจทย์การทำงานของคนทำงานทุก Gen มากที่สุด

เชื่อว่าวันนี้ ChatGPT ได้กลายเป็นเครื่องมือทำงานที่คนทำงานจำนวนมากเลือกใช้ เนื่องจากความสามารถที่หลากหลาย ทั้งในด้านการตอบคำถาม และสร้างผลลัพธ์ต่าง ๆ ได้ตรงกับความต้องการด้วยคุณภาพในระดับเดียวกับที่มนุษย์ทำได้ จึงทำให้ ChatGPT ได้รับความนิยมอย่างสูง จนถูกนำไปใช้เป็นตัวเลือกที่คนทำงานทุกระดับในทุกสายงานใช้งานอย่างไม่จำกัด เพื่อเป็นผู้ช่วยให้เราทำงานออกมาได้ประสิทธิภาพและมีคุณภาพไปพร้อมกัน การใช้ ChatGPT มีประโยชน์อะไรบ้าง อย่างที่เห็นว่าผู้ใช้งานสามารถนำ ChatGPT ไปใช้ได้หลายรูปแบบ ไม่ว่าจะเป็นผู้ช่วยส่วนตัวในชีวิตประจำวัน และเป็นเครื่องมือช่วยเหลือในการทำงาน ซึ่งหากมองในมุมของการทำงาน การใช้ ChatGPT จะช่วยให้ธุรกิจได้ประโยชน์หลายอย่าง อย่างการลดต้นทุน เพราะ ChatGPT สามารถทำงานซ้ำแทนมนุษย์ได้ ช่วยให้องค์กรจัดสรรบุคลากรไปทำงานด้านอื่นที่มีความซับซ้อนมากกว่า ChatGPT ยังสามารถทำงานได้ตลอดเวลา ช่วยให้ธุรกิจมีเครื่องมือเข้ามาช่วยสนับสนุนการทำงานนอกชั่วโมงการทำงานปกติ โดยเฉพาะงานด้านการบริการลูกค้าซึ่งเป็นส่วนงานที่จะต้อง ดำเนินการตลอดเวลา ซึ่ง ChatGPT สามารถรองรับข้อความจำนวนมาก และสร้างข้อมูลเพื่อตอบกลับลูกค้าได้ทันที ช่วยเพิ่มประสิทธิภาพในการบริการลูกค้า และสุดท้ายคือการเป็นเครื่องมือที่ช่วยรวบรวมข้อมูลที่ลูกค้าติดต่อเข้ามา เพื่อให้องค์กรนำข้อมูลดังกล่าวมาสรุปเป็น Insights แล้วนำไปใช้ในการดำเนินงานด้านอื่น ๆ ต่อได้ นี่ก็คือประโยชน์ส่วนหนึ่งของการนำ ChatGPT มาใช้ในการทำธุรกิจโดยรวม โดยจากดูสถิติการใช้งานที่รวบรวมโดย Intelliarts บริษัทที่ปรึกษาด้านเทคโนโลยี ระบุว่า ChatGPT ถูกนำไปใช้งานในหลายด้าน โดยมีงานที่ได้รับความนิยมมากที่สุด 3 อันดับแรก ได้แก่ นอกจากนี้ หากมองลึกลงไปในรายละเอียดจะเห็นว่าในองค์กรมีพนักงานหลาย Generation ตั้งแต่ Baby Boomer ไปจนถึง Gen Z ซึ่งแต่ละช่วงอายุมีลักษณะการใช้งาน ChatGPT ที่ใกล้เคียงกันและแตกต่างกันตามตำแหน่งและลักษณะงานของตนเอง ลองไปดูกันว่าพนักงานแต่ละ Generation มีการใช้ ChatGPT ในการทำงานอย่างไร เพื่อให้เกิดประสิทธิภาพสูงสุดและตอบโจทย์การทำงานในแต่ละวัน จากผลสำรวจของ Pew Research Center ในปี 2024 Baby Boomer พนักงาน Baby Boomer คือกลุ่มคนที่เกิดระหว่างปี 1946 ถึง 1964 ซึ่งเป็นกลุ่มที่ไม่มีความถนัดในการใช้เทคโนโลยีเทียบเท่ากับคนรุ่นอื่น แต่สามารถเรียนรู้การใช้งานในเบื้องต้นได้ ทำให้ Baby Boomer เป็นกลุ่มคนที่ใช้ ChatGPT น้อยที่สุดด้วยสัดส่วน 6% โดยมีลักษณะการใช้งานหลักในการร่างเอกสารทางธุรกิจและค้นหาข้อมูลที่เกี่ยวข้องกับธุรกิจ Generation X พนักงาน Gen X คือกลุ่มคนที่เกิดระหว่างปี 1965 ถึง 1980 แม้จะไม่ได้เติบโตมาพร้อมกับเทคโนโลยี แต่ถ้าเรียนรู้การใช้งานก็สามารถใช้เทคโนโลยีในการทำงาน ซึ่งมีสัดส่วนการใช้งาน ChatGPT อยู่ที่ 17% โดยมีลักษณะการใช้งานหลักในการจัดตารางการทำงานให้กับคนในทีมและเขียนอีเมลติดต่อกับลูกค้า Generation Y พนักงาน Gen Y หรือที่เรียกอีกชื่อว่า Millennials คือกลุ่มคนที่เกิดระหว่างปี 1981 ถึง 1996 เป็นเจนเนอเรชั่นที่ผ่านการเปลี่ยนแปลงของเทคโนโลยีมาหลายอย่าง ทำให้สามารถปรับตัวได้เร็ว และมีสัดส่วนการใช้งาน ChatGPT อยู่ที่ 27% โดยมีลักษณะการใช้งานหลักในการจัดลำดับความสำคัญของงานและหาข้อมูลเพื่อเรียนรู้เรื่องใหม่ ๆ Generation Z พนักงาน Gen Z คือกลุ่มคนที่เกิดระหว่างปี 1997 ถึง 2012 ซึ่งเติบโตมาพร้อมกับการพัฒนาเทคโนโลยี ทำให้มีความคุ้นเคยและสามารถเรียนรู้วิธีการใช้งานได้เร็ว ทำให้เป็นกลุ่มที่สัดส่วนการใช้ ChatGPT มากที่สุดอยู่ที่ 43% โดยมีลักษณะการใช้งาน ChatGPT เพื่อคิดคอนเทนต์ลง Social Media และสรุปข้อมูลที่ตัวเองต้องการ ขั้นตอนการใช้งาน ChatGPT ChatGPT เป็นเครื่องมือที่ผู้ใช้งานสามารถเข้าไปได้ฟรี โดยมีขั้นตอนการใช้งาน 3 ข้อดังนี้ เริ่มแรกเราจะต้องเข้าไปที่เว็บไซต์ chatgpt.com เพื่อสร้างบัญชีผู้ใช้ ซึ่งผู้ใช้ฟรีจะสามารถดูประวัติการใช้งาน เขียน Prompt เพื่อสร้างรูปภาพ และอัปโหลดไฟล์ฟอร์แมตต่าง ๆ เพื่อให้ ChatGPT นำไปสร้างผลลัพธ์ให้ หลังจากที่เราสร้างบัญชีและล็อกอินเข้ามาแล้ว ก็จะพบกับหน้าต่างสนทนาที่จะประกอบไปด้วยแถบเครื่องมือและตัวเลือก ซึ่งมีรายละเอียดดังนี้ ถัดจากเครื่องมือก็มาถึงการใช้งานที่ผู้ใช้จะต้องป้อนคำสั่ง (Prompt) ให้ ChatGPT นำไปประมวลผล และสร้างผลลัพธ์ตอบกลับมา ซึ่งเราสามารถเขียน Prompt ได้หลายรูปแบบ ขึ้นอยู่กับความต้องการ โดยมีตัวอย่าง Prompt แนะนำที่สามารถนำไปใช้เพื่อเพิ่มความรวดเร็วในการทำงานสำหรับธุรกิจและองค์กรต่าง ๆ 4 ด้านด้วยกันดังนี้ Prompt สำหรับงานด้านการบริหาร Prompt สำหรับงานด้านการวางแผนเชิงกลยุทธ์ Prompt สำหรับงานด้านการบริการลูกค้า Prompt สำหรับงานด้านการตลาด นี่คือแนวทางการใช้งาน ChatGPT เบื้องต้นที่สามารถนำไปปรับใช้ในการทำงานได้อย่างมีประสิทธิภาพ จะเห็นได้ว่า ChatGPT เป็น AI ที่มีความสามารถหลากหลาย ตอบโจทย์การใช้งานของทุกช่วงวัย ไม่ว่าคุณจะอยู่ในวัยใดหากเรียนรู้วิธีใช้ให้ถูกต้อง ChatGPT จะกลายเป็นเครื่องมือทรงพลังที่ช่วยเพิ่มประสิทธิภาพในการทำงานได้อย่างรวดเร็วและเกิดประโยชน์สูงสุด แหล่งอ้างอิง

16 May 2025

บทความ

BDI หนุนผู้เชี่ยวชาญ Big Data & AI ร่วมบูรณาการข้อมูลข้าว สร้างฐานข้อมูลที่น่าเชื่อถืออย่างเป็นระบบ สนับสนุนการตัดสินใจเชิงนโยบาย ยกระดับชาวนาไทยแข่งขันในเวทีสากล

สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน) หรือ BDI นำโดย รศ. ดร.ธีรณี อจลากุล ผู้อำนวยการสถาบันข้อมูลขนาดใหญ่ พร้อมด้วย ดร.ศรัณธร ภู่สิงห์ ผู้จัดการโครงการและนักวิทยาศาสตร์ข้อมูล และนางสาวพรรษพัชร์ บำรุงวงศ์ ผู้จัดการโครงการและนักวิทยาศาสตร์ข้อมูล ฝ่ายบริการวิเคราะห์ข้อมูล เข้าร่วมประชุมหารือโครงการ “พัฒนาระบบฐานข้อมูลเพื่อสนับสนุนการวิจัยและพัฒนาภาคเกษตรของไทย” โดยมี ดร.สุเมธ ตันติเวชกุล ประธานกรรมการมูลนิธิข้าวไทย ในพระบรมราชูปถัมภ์ เป็นประธานการประชุม พร้อมผู้แทนทุกหน่วยงานที่เกี่ยวข้อง ณ สำนักงานมูลนิธิชัยพัฒนา กรุงเทพฯ เมื่อวันที่ 10 เมษายน 2568 การประชุมในครั้งนี้ BDI ในฐานะองค์กรหลักที่ขับเคลื่อนประเทศด้วยข้อมูลขนาดใหญ่ พร้อมดำเนินงานพัฒนาระบบฐานข้อมูลฯ ในระยะแรกได้รวบรวมข้อมูลจากฐานของหน่วยงานพันธมิตร ประกอบด้วย กรมการข้าว, มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าธนบุรี, สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.), สำนักงานพัฒนาเทคโนโลยีอวกาศและภูมิสารสนเทศ (องค์การมหาชน) หรือ GISTDA, ธนาคารเพื่อการเกษตรและสหกรณ์การเกษตร (ธ.ก.ส.) และสำนักงานเศรษฐกิจการเกษตร เพื่อสร้างแผนที่แสดงพื้นที่ปลูกข้าวทั้งประเทศ โดยจะมีการสร้างฐานข้อมูลเพื่อเก็บรวมศูนย์ข้อมูล (Consolidated Data) และทำการออกแบบแดชบอร์ดให้แสดงผลแบบเข้าใจง่าย เพื่อนำไปใช้งานกำหนดทิศทางนโยบายต่อไป โดยทุกหน่วยงานที่เกี่ยวข้องเดินหน้าจัดทำบันทึกข้อตกลงความร่วมมือ (MOU) เพื่อสนับสนุนการแลกเปลี่ยนและใช้ประโยชน์จากข้อมูลร่วมกัน พร้อมวางแผนบริหารจัดการระบบข้อมูลเพื่อขับเคลื่อนโครงการในระยะยาว รวมถึงการบูรณาการและเข้าถึงข้อมูลภาคการเกษตร ซึ่งในอนาคตเตรียมประสานความร่วมมือกับอาสาสมัครเกษตร (อกษ.) เพื่ออัปเดตฐานข้อมูลจากพื้นที่จริงให้ทันสมัย ถูกต้อง และแม่นยำ พร้อมศึกษาระบบนิเวศเพื่อเชื่อมต่อกับฐานข้อมูล ก่อให้เกิดผลประโยชน์อย่างสูงสุด สู่การจัดการข้าวอย่างมีประสิทธิภาพซึ่งเป็นปัจจัยสำคัญในการเสริมสร้างศักยภาพการแข่งขันในเวทีสากล สำหรับโครงการดังกล่าว จัดขึ้นเพื่อกระตุ้นการรวบรวมและบูรณาการข้อมูลข้าว เน้นการเก็บข้อมูลพื้นที่เพาะปลูก การผลิต และกลุ่มชาวนาในประเทศไทย วิเคราะห์ความหลากหลายของการผลิตข้าว ศึกษาสภาพพื้นที่ ผลผลิต คุณภาพดิน และการถือครองที่ดินของเกษตรกร สามารถจัดกลุ่มข้อมูลข้าวและชาวนาในระดับพื้นที่ จำแนกข้อมูลตามประเภทข้าว ขนาดเกษตรกร และตลาดในแต่ละภูมิภาค พร้อมสนับสนุนการวางแผนงานวิจัยเชิงลึก พัฒนาฐานข้อมูลที่ครอบคลุมพื้นที่เพาะปลูกและครัวเรือนชาวนาในระดับประเทศ สร้างฐานข้อมูลที่น่าเชื่อถือและเป็นระบบ บูรณาการข้อมูลเพื่อใช้สนับสนุนการตัดสินใจเชิงนโยบายและการพัฒนาอย่างยั่งยืน

10 April 2025

บทความ

Big Data 101 Data for Business Movements

Data Analytics คืออะไร ? และมีอะไรบ้าง ? ทำไมทุกองค์กรถึงให้ความสำคัญ

“Data is the new oil” เป็นประโยคที่ ไคลฟ์ ฮัมบี (Clive Humby) นักคณิตศาสตร์ชาวอังกฤษพูดไว้เมื่อปี 2006 เปรียบเปรยว่าข้อมูลเป็นเหมือนทรัพยากรที่มีค่าไม่ต่างจากน้ำมัน ถือเป็นคำกล่าวที่แสดงให้เห็นถึงความสำคัญของข้อมูลในยุคนี้ได้เป็นอย่างดี เพราะปัจจุบันข้อมูลได้กลายมาเป็นเครื่องมือสำคัญในการแข่งขันของโลกธุรกิจยุคใหม่ แต่การมีข้อมูลจำนวนมากแล้วไม่สามารถนำมาใช้งานได้ ก็เหมือนมีแค่น้ำมันดิบ หากไม่ได้ผ่านกระบวนการกลั่นก็ไม่มีประโยชน์ ดังนั้นการวิเคราะห์ข้อมูล หรือ Data Analytics จึงเปรียบเสมือนกระบวนการกลั่นที่เปลี่ยนข้อมูลดิบให้เป็นพลังงานขับเคลื่อนธุรกิจ เป็นขั้นตอนสำคัญที่ทำให้เราสามารถนำข้อมูลมาใช้งานได้อย่างมีประสิทธิภาพ แล้ว Data Analytics คืออะไร ? Data Analytics คือ กระบวนการวิเคราะห์ข้อมูลด้วยเทคโนโลยีสมัยใหม่ เช่น AI (Artificial Intelligence), Machine Learning และเครื่องมือ Data Analytics มาใช้วิเคราะห์ข้อมูลเพื่อหาข้อสรุปของข้อมูลนั้น ๆ ถือเป็นการนำข้อมูลที่ได้มา เข้าสู่กระบวนการแสดงค่า หาความหมาย และสรุปผลที่ได้จากข้อมูลนั้น ๆ ช่วยให้มองเห็นแนวโน้ม โอกาส และความเสี่ยงต่าง ๆ ทำให้สามารถตัดสินใจบนพื้นฐานของข้อมูลจริงแทนการใช้สัญชาตญาณ หรือประสบการณ์เพียงอย่างเดียว ซึ่งเป็นประโยชน์ต่อการคาดการณ์อนาคต หาแนวโน้มความน่าจะเป็น แนวโน้มคำตอบ หรือจุดที่ต้องแก้ไข ที่จะสามารถช่วยเสริมศักยภาพทางธุรกิจได้ รูปแบบการทำ Data Analytics การทำ Data Analytics สามารถแบ่งออกได้เป็น 4 ประเภทหลัก ๆ ตามลักษณะและวัตถุประสงค์ ดังนี้ ตัวอย่างเครื่องมือในการทำ Data Analytics (Data Analytics Tools) ความสำคัญของ Data Analytics ในธุรกิจ Data Analytics ยังเป็นส่วนสำคัญของการขับเคลื่อน Digital Transformation ในองค์กร เนื่องจากข้อมูลเชิงลึกที่ได้ จะช่วยให้ธุรกิจค้นพบไอเดียหรือโอกาสใหม่ ๆ ในการเพิ่มรายได้ ลดต้นทุน หรือสร้างนวัตกรรม ซึ่งเป็นปัจจัยสำคัญที่จะทำให้องค์กรสามารถปรับตัวและเติบโตได้อย่างรวดเร็วในโลกดิจิทัลที่มีการแข่งขันสูง หลายองค์กรตระหนักถึงความสำคัญของการใช้ Data Analytics เพื่อปรับปรุงกระบวนการทำงาน ลองมาดูตัวอย่างของการนำ Data Analytics ไปใช้งานในธุรกิจด้านต่าง ๆ กัน องค์กรสามารถใช้การวิเคราะห์ข้อมูลเพื่อทำความเข้าใจพฤติกรรมของลูกค้า ทำให้สามารถสร้างแคมเปญการตลาดที่มีประสิทธิภาพมากขึ้น รวมถึงการทำ Personalization ที่สามารถนำเสนอสินค้าหรือบริการที่ตรงกับความต้องการของลูกค้ามากที่สุด ตัวอย่างเช่น Netflix แพลตฟอร์มสตรีมมิ่งคอนเทนต์ระดับโลก ได้มีการนำ Data Analytics มาใช้ประโยชน์ในการรวบรวมพฤติกรรมการใช้งานของสมาชิก ด้วยเทคโนโลยี AI ทั้งอุปกรณ์ที่ใช้ในการรับชม ประวัติการดู คำค้นหา หรือผู้คนชอบดูภาพยนตร์และคอนเทนต์แนวไหนมากที่สุด จากนั้นนำมาวิเคราะห์พฤติกรรมของสมาชิกแต่ละคน เพื่อนำข้อมูลเหล่านี้มาใช้ในการแนะนำภาพยนตร์ หรือคอนเทนต์ ที่สมาขิกสนใจจะดูได้ตรงตามความต้องการ การวิเคราะห์ข้อมูลสามารถช่วยให้บริษัทคาดการณ์ความต้องการของสินค้าและบริหารจัดการสินค้าคงคลังได้อย่างมีประสิทธิภาพ ทำให้ลดปัญหาสินค้ามากเกินหรือน้อยเกินไป และช่วยลดต้นทุนทางธุรกิจ ตัวอย่างเช่น Amazon แพลตฟอร์มขายสินค้าออนไลน์ชื่อดัง ที่โดดเด่นในการใช้ Data Analytics โดยมีการใช้ Machine Learning และ Artificial Intelligence เพื่อวิเคราะห์ข้อมูลการสั่งซื้อและคาดการณ์แนวโน้ม ทำให้การจัดการสินค้าคงคลังมีความรวดเร็วและแม่นยำ การใช้ Data Analytics มาช่วยในการประเมินและจัดการความเสี่ยงในด้านต่าง ๆ จะช่วยให้ธุรกิจสามารถตรวจจับความผิดปกติและป้องกันการฉ้อโกงได้อย่างรวดเร็วจากสัญญาณความผิดปกติจากข้อมูล ทำให้สามารถแก้ไขปัญหาได้อย่างทันท่วงที ตัวอย่างเช่น บริษัทประกันภัยชั้นนำอย่าง AON ใช้ Data Analytics ในการบริหารจัดการและควบคุมความเสี่ยงที่เกี่ยวข้องกับการประกัน ซึ่งข้อมูลที่รวบรวมมาจากพฤติกรรมลูกค้าช่วยให้พวกเขาสามารถวางแผนและจัดการความเสี่ยงได้อย่างมีประสิทธิภาพ การใช้ Data Analytics ในการวิเคราะห์ข้อมูลพนักงานสามารถช่วยให้ผู้บริหารตัดสินใจในเรื่องการจ้างงาน การเลื่อนตำแหน่ง การฝึกอบรม และการระบุปัญหาที่เกิดขึ้นในองค์กรก่อนที่จะกลายเป็นปัญหาใหญ่ ตัวอย่างเช่น บริษัท Google มีการใช้ HR Analytics เพื่อทำความเข้าใจและปรับปรุงกระบวนการที่เกี่ยวข้องกับพนักงานทั้งหมด ตั้งแต่การจ้างงานจนถึงการเพิ่มคุณภาพชีวิตที่ทำงานด้วยการสำรวจและการวิเคราะห์ข้อมูล เพื่อรวบรวมความคิดเห็นและข้อมูลจากพนักงาน ในการปรับปรุงกระบวนการต่าง ๆ ให้เหมาะสมกับวัฒนธรรมองค์กรและสร้างสภาพแวดล้อมที่ดีขึ้น การนำ Data Analytics มาใช้ในการวิเคราะห์กระบวนการทำงานหรือขั้นตอนการผลิต จะช่วยให้สามารถค้นพบจุดที่เป็นคอขวด และเพิ่มประสิทธิภาพการดำเนินงานได้อย่างเป็นรูปธรรม ตัวอย่างเช่น Grab แพลตฟอร์มที่อำนวยความสะดวกให้แก่ผู้ใช้งานผ่านทางแอปพลิเคชันบนมือถือ ทั้งบริการเรียกรถรับส่ง บริการส่งพัสดุ และบริการรับส่งอาหาร มีการใช้ AI วิเคราะห์ข้อมูลการสั่งอาหารของลูกค้า โดยแนะนำร้านอาหารที่ชอบ ร้านอาหารที่มีโปรโมชั่นน่าสนใจ หรือร้านอาหารใกล้บ้าน และประมวลผลสำหรับผู้ให้บริการ Grab เพื่อให้บริการได้สะดวกมากยิ่งขึ้น การวิเคราะห์ข้อมูลลูกค้าจากหลายช่องทาง ทั้งข้อมูลการซื้อ พฤติกรรมการใช้งาน Social Media ทำให้เข้าใจความต้องการ ความชอบและ Pain Points ของลูกค้าได้ลึกซึ้งมากยิ่งขึ้น ส่งผลให้สามารถพัฒนาสินค้าและบริการให้ตรงใจลูกค้ามากขึ้นด้วย ตัวอย่างเช่น McDonald’s แบรนด์อาหารฟาสต์ฟู้ดที่มีจำนวนสาขาทั่วทุกมุมโลก ก็มีการทำ Data Analytics ในการเก็บข้อมูล เช่น รายการสั่งซื้อ เมนูที่ลูกค้าชอบ และการคอมเมนต์ตามแพลตฟอร์ม Social Media ต่าง ๆ นอกจากนี้ ยังใช้ AI ในการวิเคราะห์ข้อมูลกลุ่มเป้าหมาย เช่น ที่ตั้งของร้านมีผลต่อการเข้าใช้บริการของลูกค้าหรือไม่ ชุดเซตเมนูอย่าง Happy Meal เหมาะกับลูกค้าประเภทไหนบ้าง หรือเทรนด์การตลาดที่กำลังเป็นกระแส เพื่อทำการตลาดและนำเสนอเมนูที่ลูกค้าชอบ ที่ตอบโจทย์ความต้องการของลูกค้าให้ได้มากที่สุด จากตัวอย่างที่กล่าวมา จะเห็นได้ว่า Data Analytics มีบทบาทสำคัญต่อความสำเร็จของธุรกิจในยุคดิจิทัล องค์กรที่นำเทคโนโลยีมาวิเคราะห์ข้อมูล จะสามารถใช้ข้อมูลเชิงลึกเพื่อแก้ปัญหา วางแผนกลยุทธ์ และตัดสินใจได้อย่างแม่นยำ ธุรกิจที่ให้ความสำคัญกับ Data Analytics จะได้เปรียบในการแข่งขัน เพราะสามารถเข้าใจพฤติกรรมผู้บริโภค คาดการณ์แนวโน้ม และปรับตัวได้รวดเร็ว นอกจากนี้ การเก็บข้อมูลสถิติในกระบวนการทำงานยังช่วยให้ค้นพบวิธีการแก้ปัญหาใหม่ ๆ และเพิ่มประสิทธิภาพในทุกด้าน นี่คือเหตุผลว่าทำไม Data Analytics จึงเป็นกุญแจสู่ความสำเร็จขององค์กรชั้นนำในยุคนี้ แหล่งอ้างอิง

19 March 2025

บทความ

Big Data 101

Pandas vs. PySpark เลือกเครื่องมือที่ใช่ให้เหมาะกับงานข้อมูลของคุณ?

Pandas และ PySpark เป็นเครื่องมือที่ใช้สำหรับการจัดการและวิเคราะห์ข้อมูลใน Python โดย Pandas เป็นไลบรารียอดนิยมที่ใช้สำหรับการทำงานกับชุดข้อมูลขนาดเล็ก ถึงขนาดกลาง ในหน่วยความจำบนเครื่องเดียว (single-node) ซึ่งมีฟังก์ชันหลากหลายสำหรับการจัดการและวิเคราะห์ข้อมูล ในทางตรงกันข้าม PySpark ซึ่งสร้างขึ้นบน Apache Spark ได้รับการออกแบบมาเพื่อการประมวลผลแบบกระจาย (distributed computing) ทำให้สามารถประมวลผลชุดข้อมูลขนาดใหญ่ได้บนหลายเครื่องใน cluster เดียว Pandas คืออะไร Pandas เป็นหนึ่งใน library แบบ open-source ที่ถูกใช้งานมากที่สุดใน Python สำหรับข้อมูลที่มีโครงสร้างแบบตารางเพื่อการวิเคราะห์ข้อมูลได้หลากหลาย เช่น การกรองข้อมูล การรวมข้อมูล การแปลงข้อมูล รวมถึงการทำความสะอาดและเตรียมข้อมูล จนไปถึงการทำ Machine Learning และอื่น ๆ อีกมากมาย โดยสามารถอ่านไฟล์ได้ในหลายรูปแบบ เช่น CSV, JSON, SQL และรูปแบบอื่นๆ จากนั้นจะสร้างข้อมูลในรูปแบบ DataFrame ซึ่งเป็นวัตถุที่มีโครงสร้างประกอบด้วยแถวและคอลัมน์ (คล้ายกับตาราง SQL) ตัวอย่างการใช้งาน Pandas DataFrame เริ่มต้นใช้งาน Pandas library โดยการ import library และสร้าง DataFrame ด้วยฟังก์ชัน pd.DataFrame โดยได้ผลลัพธ์ออกมาเป็นตารางที่มี index เริ่มที่ index 0 ตัวอย่าง Pandas Transformations ฟังก์ชันต่าง ๆ ในกระบวนการแปลงของ Pandas DataFrame ซึ่งรวมถึงฟังก์ชันทางคณิตศาสตร์ หรือฟังก์ชันทางสถิติ ที่สามารถเลือกทำได้ในทั้ง DataFrame หรือเลือกทำในแต่ละ column เป็นตัวช่วยให้จัดการและวิเคราะห์ข้อมูลยืดหยุ่นมากขึ้น ตัวอย่างเช่น PySpark คืออะไร PySpark เป็น API ของ Python สำหรับ Apache Spark ซึ่งเป็นกรอบการประมวลผลแบบกระจาย (distributed computing) ที่ออกแบบมาสำหรับการประมวลผลชุดข้อมูลขนาดใหญ่ใน cluster ของเครื่องคอมพิวเตอร์ โดยที่ PySpark ช่วยให้การประมวลผลและวิเคราะห์ข้อมูลแบบขนานเป็นไปได้โดยการกระจายการคำนวณไปยังหลาย node ใน cluster ซึ่งทำให้มีความสามารถในการขยายขนาด (scalability) และมีประสิทธิภาพสูงสำหรับงานวิเคราะห์ข้อมูลขนาดใหญ่ ซึ่ง PySpark มี API DataFrame ที่มีลักษณะคล้ายกับ Pandas ทำให้ผู้ใช้งานสามารถทำการจัดการข้อมูลได้คล้ายกัน แต่บนชุดข้อมูลที่กระจายกันอยู่ (Distributed Datasets) ตัวอย่างการใช้งาน PySpark DataFrame PySpark DataFrame เป็นวัตถุที่ไม่สามารถเปลี่ยนแปลงค่าได้ (immutable) ซึ่งหมายความว่าไม่สามารถเปลี่ยนแปลงได้เมื่อสร้างขึ้นแล้ว มีความสามารถในการทนต่อข้อผิดพลาด (fault-tolerant) และการทำ Transformations จะเป็น Lazy evaluation ซึ่งหมายความว่าจะไม่ถูกดำเนินการจนกว่าจะมีการเรียกใช้ Actions เช่น count(), collect(), show() เป็นต้น ซึ่ง PySpark DataFrames จะถูกกระจายอยู่ใน cluster (ซึ่งหมายถึงข้อมูลใน PySpark DataFrames จะถูกจัดเก็บในเครื่องคอมพิวเตอร์ต่าง ๆ ใน cluster เดียว) และการดำเนินการใด ๆ ใน PySpark จะถูกดำเนินการแบบขนานบนเครื่องทั้งหมดใน cluster เริ่มต้นโดยการ import และสร้าง SparkSession และสร้าง DataFrame ด้วย spark.createDataFrame โดยได้ผลลัพธ์ออกมาเป็นตารางที่ไม่มี index และเมื่อต้องการแสดงตาราง ให้ใช้ฟังก์ชัน show() และสามารถอ่านไฟล์ได้ เช่น การอ่าน csv file ด้วยฟังก์ชัน spark.read.csv ตัวอย่าง PySpark Transformations การทำ Transformations ใน PySpark มีลักษณะเป็นแบบ Lazy evaluation ซึ่งหมายความว่าจะไม่ถูกดำเนินการจนกว่าจะมีการเรียกใช้ Actions ตัวอย่างการแปลงใน PySpark มีดังนี้ ตัวอย่างการใช้งาน PySpark SQL PySpark รองรับการใช้คำสั่ง SQL เพื่อดำเนินการแปลงข้อมูล (Transformation) ซึ่งที่ต้องทำคือการสร้างตาราง (Table) หรือมุมมอง (View) จาก PySpark DataFrame ตัวอย่าง Note !! วิธีการตัดสินใจเลือกระหว่างใช้ Pandas หรือ PySpark การตัดสินใจเลือกระหว่าง Pandas หรือ PySpark มีหลายองค์ประกอบในการตัดสินใจ ไม่ว่าจะเป็น ขนาดของข้อมูล ทรัพยากรในการประมวลผลที่มีอยู่ และความต้องการเฉพาะของงานวิเคราะห์ข้อมูล References บทความโดย ดร.ภิรมย์มาส เตชิตณัฏฐ์ศรุต ตรวจทานและปรับปรุงโดย ดร.ขวัญศิริ ศิริมังคลา

2 October 2024

บทความ

Movements

รู้จัก MICROSOFT COPILOT AI ที่ช่วยลดระยะเวลาในการทำงานและเพิ่มประสิทธิภาพให้กับการทำงานของคุณ

ในช่วงหลายปีที่ผ่านมา AI หรือ Artificial Intelligence คงเป็นคำที่หลาย ๆ คนเคยได้ยินผ่านหูกันมาบ้างไม่มากก็น้อย ซึ่ง AI นั้นได้มีบทบาทและกลายเป็นส่วนหนึ่งของชีวิตมากขึ้นเรื่อย ๆ รวมถึงเปลี่ยนรูปแบบการใชชีวิต และการทำงานของคนหลายคนอีกด้วย Microsoft Copilot เป็นฟีเจอร์ใหม่ที่ทาง Microsoft พัฒนาขึ้นโดยใช้ความสามารถของ Generative AI เพื่อเพิ่มประสิทธิภาพการทำงานของ Application ต่าง ๆ เช่น Microsoft Office และ Microsoft Excel เป็นต้น ในบทความนี้เราจะพูดถึงว่า Generative AI คืออะไร และ Microsoft Copilot สามารถใช้ทำอะไรได้บ้าง Generative AI คืออะไร Generative AI (Generative Artificial Intelligence) คือ AI ที่ใช้การเรียนรู้เชิงลึก (Deep Learning) มาใช้ในการสร้างสรรค์ สิ่งต่างๆ ได้อย่างหลากหลาย ในรูปแบบอัตโนมัติ เช่น ภาพ, เสียง, วิดีโอ, เนื้อหาข้อความ และ อื่นๆ ยกตัวอย่าง โมเดลที่เห็นได้ชัดกันทุกวันนี้คือ ChatGPT เป็นโมเดลที่ใช้ความสามารถของ Generative AI ในการประมวลผลจากเนื้อหาข้อมูลต่าง ๆ ในอินเทอร์เน็ต และ สร้างสรรค์คำตอบให้ตรงกับคำถามที่ทางผู้ใช้งาน input เข้าไป ณ ปัจจุบันมีหลายธุรกิจเริ่มมีการนำ Generative AI เข้ามาใช้งานกันอย่างต่อเนื่อง เพื่อช่วยในการสร้างสรรค์เนื้อหาที่แปลกใหม่ ช่วยในการลดระยะเวลาในการทำงานเพื่อให้งานเสร็จไวยิ่งขึ้น และเพิ่มประสิทธิภาพของการทำงานในบางสายงาน ซึ่งทั้งหมดนี้จะช่วยผลักดันธุรกิจให้สามารถก้าวหน้าไปอย่างก้าวกระโดด และทาง Microsoft ก็ได้เล็งเห็นถึงประโยชน์ ของ Generative AI จึงสร้างฟีเจอร์ Microsoft Copilot เพื่อให้ผู้ใช้งานสามารถทำงานได้อย่างมีประสิทธิภาพมากยิ่งขึ้น Microsoft Copilot สามารถใช้ทำอะไรได้บ้าง จากที่ได้กล่าวไว้ข้างต้น Microsoft Copilot ใช้ Generative AI มาประยุกต์เพื่อเพื่อเพิ่มประสิทธิภาพการทำงานของ Application ผมจะขอยกตัวอย่างทีละ Application ว่า Microsoft Copilot มีบทบาทอย่างไร Microsoft Teams เราสามารถนำ Microsoft Copilot มาใช้ในการประชุม Team เพื่อสรุปประเด็นการสนทนาที่สําคัญ รวมถึงแนะนํารายการการดําเนินการทั้งหมดแบบเรียลไทม์ในระหว่างการประชุม นอกเหนือจากด้านการประชุม Microsoft Copilot ก็สามารถที่จะรวบรวมทุกอย่างใน Teams ไว้ด้วยกัน เช่น บันทึก, อีเมล์, ปฏิทิน และ งานนำเสนอ เพื่อช่วยให้เราสามารถค้นหาสิ่งที่ต้องการได้สะดวกรวดเร็วยิ่งขึ้น รูปที่ 1 Microsoft Teams with Copilot(Source: https://copilot.cloud.microsoft/th-th/copilot-teams) Microsoft Word ในด้านของงานเอกสารหากเรา ยังคิดไม่ออกว่าจะเขียนอะไร Microsoft Copilot สามารถที่จะช่วยสร้างแบบร่าง เพื่อเป็นไอเดียเบื้องต้นให้เราเริ่มเขียนได้ง่ายยิ่งขึ้น หรือ บางทีหากเราเขียนเอกสารไปจนถึงกลางทางแล้วเกิดคิดไม่ออก Microsoft Copilot ก็สามารถที่จะช่วยต่อยอดจากเนื้อหาที่มีอยู่แล้วได้อีกด้วย นอกเหนือจากนี้ Microsoft Copilot สามารถแปลงข้อความที่เราเขียนให้กลายเป็นตารางได้ทันที เพื่อประหยัดเวลาในการสร้างตารางอีกด้วย และสุดท้ายหากเราต้องการจากเนื้อหาจำนวนมาก Microsoft Copilot ก็มีฟีเจอร์ที่สามารถช่วยสรุปใจความสำคัญได้ทันที รูปที่ 2 Microsoft Word with Copilot(Source: https://copilot.cloud.microsoft/th-th/copilot-word) Microsoft PowerPoint Microsoft Copilot สามารถสร้างงานนำเสนอด้วยเทมเพลตที่มีอยู่ ด้วยธีมที่เรามีอยู่แล้ว หรือสร้างงานนำเสนอใหม่ด้วยธีมหรือเทมเพลตจากไฟล์ใหม่แบบอัตโนมัติ ซึ่งช่วยให้เราไม่จำเป็นต้องเสียเวลาในการสร้างงานนำเสนอใหม่ตั้งแต่ต้น อย่างไรก็ตามเราอาจจะต้องมีการตรวจสอบอีกรอบนึงหลังจากใช้ฟีเจอร์นี้ เพื่อตรวจสอบความถูกต้องทั้งหมด นอกจากนี้ Microsoft Copilot ยังสามารถสร้างงานนําเสนอจากเอกสาร Word หรือ PDF ได้ทันทีอีกด้วย ซึ่งจะช่วยประหยัดเวลาการทำงานนำเสนอได้อย่างมาก ถ้าเทียบกับการที่เราต้องค่อยๆ หยิบเอาข้อมูลจาก Word หรือ PDF มาใส่ใน PowerPoint รูปที่ 3 Microsoft PowerPoint with Copilot(Source: https://copilot.cloud.microsoft/en-us/copilot-powerpoint) Microsoft Excel สำหรับ Microsoft Excel ตัว Microsoft Copilot ก็ยังสามารถช่วยให้เราสํารวจและทําความเข้าใจข้อมูลได้ดีขึ้น โดยการสร้างกราฟ Visualization ข้อมูลเบื้องต้น และถ้าเราต้องการจะดูข้อมูลเชิงลึก Microsoft Copilot ก็สามารถช่วยวิเคราะห์และแสดงภาพข้อมูลเชิงลึกได้เช่นกัน นอกจากนี้ยังสามารถช่วยไฮไลต์ กรอง และ เรียงลำดับข้อมูลได้ง่ายยิ่งขึ้น และถ้าหากเราต้องการใช้สูตรในการคำนวณที่ซับซ้อนทาง Microsoft Copilot ก็สามารถให้คำแนะนำและเสนอสูตรที่เหมาะสมกับสิ่งที่เราต้องการ รูปที่ 4 Microsoft Excel with Copilot(Source: https://copilot.cloud.microsoft/en-us/copilot-excel) OneNote นอกจากนี้ Microsoft Copilot ก็สามารถนำมาใช้กับ OneNote ได้เช่นกัน โดย Microsoft Copilot จะช่วยสรุปข้อความใน page ที่เราเคยจดมาจากการประชุม หรือ อื่น ๆ ให้อยู่ในรูปแบบที่สามารถแชร์ให้คนอื่นอ่านและเข้าใจได้ง่าย สามารถสร้าง to-do list อัตโนมัติจากสิ่งที่เราจดโน้ตเอาไว้ รวมถึงสร้าง plan สำหรับงานอีเว้นท์, การประชุม และ งานเฉลิมฉลอง จากข้อมูลที่มีได้อีกเช่นกัน รูปที่ 5 Microsoft OneNote with Copilot(Source: https://copilot.cloud.microsoft/en-us/copilot-onenote) อย่างไรก็ตาม Microsoft Copilot ก็ไม่ใช่เครื่องมือ AI เพียงเครื่องมือเดียวที่สามารถช่วยเพิ่มประสิทธิภาพการทำงานในองค์กร ยังมี AI อื่น ๆ ที่มีความสามารถในการช่วยเหลือเหมือนกับ Microsoft Copilot เช่น บทสรุป จากสิ่งที่เล่ามาทั้งหมด จะเห็นได้ว่า Microsoft Copilot สามารถช่วยเหลือการทำงานของเราได้ ในหลาย ๆ ด้าน ไม่ว่าจะเป็นการประชุม, การทำเอกสาร, การทำงานนำเสนอ และ อื่น ๆ แต่อย่างไรก็ตาม AI อาจจะไม่ถูกต้องเสมอไป ในบางงาน Microsoft Copilot...

25 September 2024

บทความ

Big Data 101

3 วิธีการเปรียบเทียบข้อมูลกับช่วงก่อนหน้าที่ต้องการด้วย Looker Studio

Looker Studio ถือเป็นอีกเครื่องมือหนึ่งที่เป็นที่นิยมในปัจจุบัน สำหรับการสร้างกราฟหลากหลายรูปแบบเพื่อนำไปใช้วิเคราะห์และเจาะลึกข้อมูลตามความต้องการของผู้ใช้ สิ่งหนึ่งที่จำเป็นต่อการวิเคราะห์ข้อมูลคือความสามารถในการเปรียบเทียบข้อมูลกับช่วงเวลาก่อนหน้าที่ต้องการ เช่น การเปรียบเทียบข้อมูลปีนี้ กับปีที่แล้ว หรือช่วงไตรมาสปัจจุบันมีการเปลี่ยนแปลงจากไตรมาสที่แล้วอย่างไร เป็นต้น ซึ่ง Looker Studio เองมีความสามารถที่จะตอบสนองต่อความต้องการดังกล่าวได้ ในบทความนี้จึงจะนำเสนอ 3 วิธีที่จะช่วยให้การเปรียบเทียบข้อมูลในช่วงเวลาต่าง ๆ สามารถทำได้ด้วย Looker Studio วิธีที่ 1 การใช้ Date Range Control ใน Looker Studio จะมีตัวควบคุม (Control) ให้เลือกใช้อยู่หลากหลายแบบ แต่สิ่งที่จะนำมาใช้ในตอนนี้คือตัวควบคุมที่ชื่อว่า Date Range Control Date Range Control หรือการควบคุมช่วงวันที่ เป็นตัวควบคุมในรูปแบบปฏิทินที่สามารถปรับตั้งค่าได้ตามชอบ ซึ่งช่วยให้การปรับช่วงเวลาที่จะใช้แสดงผลทำได้สะดวกโดยไม่จำเป็นต้องแก้ไขข้อมูลหรือการตั้งค่าใด ๆ เมื่อนำตัวควบคุมดังกล่าววางลงในหน้าที่ต้องการใช้งานแล้ว หน้าการแสดงผลจะถูกควบคุมด้วย Date Range Control ตามการตั้งค่า ซึ่งมีอยู่ 2 แบบ เมื่อสร้าง Date Range Control แล้ว จะต้องเปิดใช้งานตัวเลือกการเปรียบเทียบกับช่วงเวลาก่อนหน้า (Comparison Date Range) โดยที่กราฟเกือบทั้งหมดสามารถแสดงการเปรียบเทียบกับช่วงเวลาก่อนหน้าได้ แต่บางกราฟไม่สามารถทำได้ เช่น กราฟวงกลม แผนที่ เป็นต้น ดังนั้นการพิจารณาก่อนใช้งานกราฟประเภทต่าง ๆ เองก็เป็นสิ่งสำคัญเช่นกัน ในการเปิดใช้งานการเปรียบเทียบช่วงเวลา ในการเปรียบเทียบ ไม่ได้มีการเปรียบเทีบกับช่วงก่อนหน้า (Previous period) เพียงอย่างเดียว วิธีที่ 2 การจัดกลุ่ม (Group) จากวิธีที่ 1 จะเห็นได้ว่า Date range control สามารถทำให้ผู้ใช้สามารถเปรียบเทียบข้อมูลกับช่วงที่ต้องการได้ แต่ว่าการตั้งค่าช่วงเวลาก่อนหน้าจะต้องถูกกำหนดตั้งแต่แรกใน Default date range ของกราฟนั้น ๆ ทำให้ผู้ใช้ที่ไม่ได้มีสิทธิ์ในการแก้ไขกราฟ ไม่สามารถปรับเปลี่ยนช่วงที่ต้องการเทียบได้อย่างอิสระ การจัดกลุ่ม (Group) จะสามารถแก้ไขปัญหาได้โดยมีวิธีการดังนี้ เมื่อลองเปลี่ยนช่วงวันที่ของ Date range control แต่ละตัว จะพบว่ากราฟจะมีการปรับเปลี่ยนตัวเลขตาม Date range control ที่ถูกจัดกลุ่มอยู่ด้วยกัน ไม่มีการยุ่งเกี่ยวกัน (Date range control 1 กับ กราฟ 1) ทำให้สามารถดูค่าตัวเลขเปรียบเทียบระหว่างสองช่วงเวลาได้ วิธีที่ 3 การใช้พารามิเตอร์ อีกหนึ่งวิธีในการเปรียบเทียบข้อมูลกับช่วงก่อนหน้าสามารถทำได้ด้วยพารามิเตอร์ (Parameter) หากย้อนกลับไปที่วิธีที่ 2 จะเห็นได้ว่าถึงแม้จะสามารถเปรียบเทียบค่าได้ แต่ตัวเลขจะอยู่คนละกราฟทำให้การพิจารณาตัวเลขทำได้ไม่สะดวกเท่าที่ควร เมื่อมาถึงขั้นตอนนี้เราจะได้ calculated field จำนวน 2 ตัวคือ present และ compare โดย present นั้นจะเป็นการบวกรวมค่าในคอลัมน์ count หากปีของข้อมูลมีค่าเท่ากับพารามิเตอร์ที่ชื่อปี ขณะที่ compare จะเป็นการบวกรวมค่าในคอลัมน์ count หากปีของข้อมูลมีค่าเท่ากับพารามิเตอร์ที่ชื่อปีที่ต้องการเปรียบเทียบ ทำให้ calculated fields ทั้ง 2 ตัวถูกแยกกันด้วยพารามิเตอร์สองตัวอย่างเด็ดขาด และจะเห็นได้ว่าเมื่อสร้างกราฟตารางขึ้นมา เราสามารถนำ calculated field ทั้ง 2 ตัว ไปใส่เอาไว้ในกราฟเดียวกันได้เลย นอกจากนั้นหากต้องการเปรียบเทียบเพิ่มเติมว่าข้อมูล calculated field ทั้ง 2 ตัว มีการเปลี่ยนแปลงเพิ่มขึ้นหรือลดลงย่างไรก็สามารถทำได้เช่นกัน เมื่อทำเสร็จตามขั้นตอน จะเห็นได้ว่าข้อมูล calculated field ทั้งสอง จะมีคอลัมน์ที่ชื่อ different มาแสดงค่าความเปลี่ยนแปลงว่ามีการเพิ่มขึ้นหรือลดลงอย่างไรเป็นที่เรียบร้อย การใช้งานการเปรียบเทียบข้อมูลใน Looker Studio นั้นจะเห็นได้ว่าสามารถทำได้อย่างหลากหลายวิธี และแต่ละวิธีเองก็มีข้อดี และข้อเสียที่แตกต่างกันไป จึงอยู่ที่ผู้ใช้งานที่จะเลือกใช้วิธีการต่าง ๆ ให้เหมาะสมกับข้อมูลและความต้องการของตนเอง บทความโดย ชนิกานต์ วิทยถาวรวงศ์ ตรวจทานและปรับปรุงโดย นววิทย์ พงศ์อนันต์ แหล่งอ้างอิง

17 September 2024

รู้จัก BDI

Organization

Policy and Plan

Personnel

Operations

Data Science

ข่าวและบทความที่เกี่ยวข้อง

Related news and articles

บทความ

บทความ

บทความ

บทความ

บทความ

บทความ

บทความ

บทความ

บทความ

สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน)

Big Data Institute (Public Organization)

234/432 Soi Lat Phrao 12, Chomphon, Chatuchak, Bangkok 10900, Thailand

Contact Us

Quick Link

About Us