Data Science Excel

เทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่ด้วย Excel

เราถูกสอนกันว่า Excel ไม่เหมาะจะใช้ทำงานด้าน Big Data เพราะข้อจำกัดเรื่องขนาดข้อมูลที่ไม่สามารถวิเคราะห์ข้อมูลเกิน 1.04 ล้าน rows ได้  วันนี้เราจะแนะนำเทคนิค (ไม่ลับ) ให้ทุกคนวิเคราะห์ข้อมูล 10 ล้าน records ด้วย Excel ง่ายๆ  ปล. จริงๆตามทฤษฏีสามารถรันได้ถึง 100 ล้าน records เลยด้วย

จำนวน rows1,048,576
จำนวน columns16,384

โดยทั่วไปไฟล์ Excel นามสุกล .xlsx จะสามารถแสดงผลข้อมูลได้ที่ 1.04 ล้านแถวและ 16,384 คอลั่มตามลำดับ แต่ถ้าเราแค่สร้าง connection ต่อไปที่ data source ของเรา Excel สามารถวิเคราะห์ข้อมูลได้มากกว่า 1 ล้านแถวสบายๆด้วย Pivot Table ตัวอย่างไฟล์ .csv ที่เราจะใช้ใน tutorial วันนี้มีขนาด 281MB

เราลอง simulate dataset ขึ้นมามี 4 คอลั่ม ID, gender, math, science และมีทั้งหมด 10 ล้าน records !! ด้านล่างคือพรีวิวข้อมูล 10 แถวบนสุด ตัวอย่างวันนี้เราใช้ Excel เวอร์ชั่น Office 365

การวิเคราะห์ข้อมูลขนาดใหญ่ด้วย Excel จริงๆมีแค่สองขั้นตอนง่ายๆ ดังนี้

  • สร้าง connection ไปที่ data file
  • เสร็จแล้ววิเคราะห์ข้อมูลด้วย Pivot Table

Step 1 – Get Data

เปิดโปรแกรม Excel ขึ้นมาไปที่แท๊บ Data -> Get Data -> From File -> From Text/CSV เสร็จแล้ว browse หาไฟล์ข้อมูล .csv ที่เราต้องการแล้วคลิก Import

พอมาถึงหน้า preview data ให้เราคลิก Load -> Load To


ตั้งค่าในหน้าต่าง Import Data ตามรูปด้านล่าง

  • เลือก Only Create Connection
  • เลือก Add this data to the Data Model

รอประมาณ 2-3 นาทีจนกว่า Excel จะสร้าง connection/ data model กับไฟล์ข้อมูลสำเร็จ Excel จะแสดงข้อความว่า “10,000,000 rows loaded.” ทางด้านขวามือของหน้าจอ

Step 2 – Analyze Data

ตอนนี้เราสามารถเรียกใช้งาน Pivot Table เพื่อวิเคราะห์ข้อมูลได้แล้ว ให้ไปที่แท๊บ Insert -> Pivot Table แล้วเลือก option ตามรูปด้านล่าง

  • Use an external data source -> คลิกที่ Choose Connection แล้วเลือก Connection ที่เราสร้างขึ้นมาในขั้นตอนที่แล้ว

Excel จะแสดงหน้าต่าง Pivot Table ให้เราใช้หมุนข้อมูลทางด้านขวามือของหน้าจอ

Pivot Table คือสุดยอดเครื่องมือการทำ data analysis ใน Excel
  • ให้เราเลือกตัวแปร gender ใส่ไปที่ช่อง Rows
  • เลือกตัวแปร gender, math, science ใส่ไปที่ช่อง Columns
  • ปรับ format การแสดงผล Pivot Table และค่าสถิติได้ตามที่เราต้องการ
Pivot Table วิเคราะห์ข้อมูล 10 ล้านแถวได้แบบไม่หน่วงเลย

การสร้าง connection ไปที่ external data source และ Pivot Table ช่วยให้ data analyst วิเคราะห์ข้อมูลขนาดใหญ่ใน Excel ได้ไม่ยาก  ใน Excel ยังมีเครื่องมือดีๆอีกหลายตัวที่เราควรศึกษาไว้ เช่น Power Query, Power Pivot, Solver, Analysis Toolpak เป็นต้น 

4 comments

  1. ขอบคุณครับ ได้ความรู้ดีๆ ไปประยุกต์ใช้ในงาน

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.