Data Analyst Learning Path

อยากเปลี่ยนสายงานมาเป็น data analyst แต่ไม่รู้จะเริ่มยังไงดี?

บทความวันนี้เราเขียนเรื่อง learning path สำหรับเพื่อนๆที่สนใจงานตำแหน่งนี้มาให้ลองอ่านกันจากประสบการณ์ตรงของแอดเอง พร้อมแนะนำหลักสูตร data analyst เรียนฟรี 12 คอร์สออนไลน์

Our Mission

เนื้องานของตำแหน่ง data analyst แต่ละบริษัทจะมีความแตกต่างกันไป แต่หัวใจหลักของสิ่งที่เราทำคือการวิเคราะห์และสรุปผลข้อมูล (ขนาดใหญ่) อย่างแม่นยำและตอบโจทย์ทางธุรกิจ

  • Mining data for insight
  • Summarising (BIG) data
  • Communicate result

เครื่องมือหลักๆที่เราใช้ในงานประจำวันก็พวก MS Excel, SQL, some programming skills เพื่อวิเคราะห์ข้อมูลที่อยู่ใน database ของบริษัท ใช้ความรู้สถิติพื้นฐานในการสรุปผลข้อมูล เช่น mean, median, mode, sd, count ฯลฯ และนำเสนอข้อมูลด้วย visualization tools เช่น Tableau หรือ Power BI ในรูปแบบของ dashboard หรือ presentation deck

Business Problem

the-wolf-of-wall-street-2
Source: The Wolf of Wall Street (2013)

หลายคนอาจจะคิดว่าการเขียนโปรแกรมให้เป็น สำคัญที่สุดสำหรับการเป็น data analyst รวมถึงตำแหน่งด้าน data science อื่นๆ แต่จริงๆแล้วทักษะที่สำคัญที่สุดก่อนเริ่มทำทุกโปรเจ็คคือการ “ตั้งคำถามให้ถูก” และต้องเป็นคำถามที่ตอบได้ด้วย data ที่เรามี

Ask questions you can answer with your data

ยอดขายเดือนที่แล้วตก ตกเพราะอะไร? ต้องไปดึง data ที่ไหน? วิเคราะห์ยังไงดี? คำถามเยอะมากที่เราต้อง address ให้ได้ก่อนเริ่มวิเคราะห์ข้อมูลจริงๆ

Core Skills

โอเค! งานที่เราทำเป็นตัวกำหนดทักษะที่เราต้องมี สำหรับตำแหน่ง data analyst ควรมีความรู้พื้นฐานตามนี้ ค่อยๆเก็บไปเรื่อยๆทีละ skill

  1. Spreadsheet
  2. SQL
  3. R or Python Programming
  4. Statistics and EDA
  5. Data Visualization

Spreadsheet software อย่าง Excel และ Google Sheets ยังใช้กันเยอะมากในการวิเคราะห์ข้อมูล หลายคนมองข้ามพื้นฐานการใช้ spreadsheet ไปเลย เพราะคิดว่าไม่สำคัญ คุณกำลังเข้าใจผิดอย่างมาก! สิ่งที่แรกที่ควรทำให้คล่องคือพวก PivotTable และฟีเจอร์อย่าง Power Query สำหรับการ import & clean ข้อมูลเบื้องต้นใน Excel แบบไม่ต้องเขียนโค้ดเลย

Learn to Code

เมื่อข้อมูลมีขนาดใหญ่ขึ้น Excel จะเริ่มไม่ตอบโจทย์สำหรับงาน Big Data เท่าไร ทำให้การเขียนโปรแกรม (coding) เป็นเรื่องสำคัญขึ้นมาทันทีเลย โดย top 3 languages ที่ใช้กันเยอะมากในงาน data science อ้างอิงจาก Kaggle (2017) เรียงตามลำดับ คือ

  • Python
  • R
  • SQL

Python เป็นภาษาที่หลายๆคนแนะนำให้เรียนเป็นตัวแรก (ถ้าคุณไม่เคยเขียนโปรแกรมมาก่อนเลย) ได้คะแนนสูงถึง 76.3% จากผลสำรวจของ Kaggle และ ranking ของภาษานี้วิ่งสูงขึ้นเรื่อยๆในช่วง 2-3 ปีที่ผ่านมา แต่ส่วนตัวแอดยังชอบ R มากกว่าหน่อย ถ้าอยากจะเน้น statistics และการสร้างโมเดลเร็วๆ R เป็นตัวเลือกที่น่าสนใจมาก

ส่วน SQL คือทักษะขั้นพื้นฐานเลยสำหรับคนที่อยากจะเริ่มงานด้าน data ทุกตำแหน่ง เราใช้ SQL ในการ query ข้อมูลจาก database แล้วนำไปวิเคราะห์ใน Python R Excel เพื่อหา insight ต่อไป

Step Up

giphy
Source: https://giphy.com/gifs/machine-learning-42dsvcMDP3diU

ถ้าอยากจะอัพสกิลตัวเองอีกนิดนึง เรียนเพิ่มอีกสองเรื่อง supervised / unsupervised (machine) learning ซึ่งสองทักษะนี้สามารถนำไปใช้ต่อยอดได้เยอะมาก รวมถึงพัฒนา career ของเราขึ้นเป็น data scientist ในอนาคต

  1. Supervised learning — ทำโมเดลพวก prediction มีสองแบบหลักๆคือ regression สำหรับทำนายข้อมูลที่เป็นตัวเลข (numeric) และ classification สำหรับทำนายข้อมูลเชิงคุณภาพ (category)
  2. Unsupervised learning — ใช้หา pattern ในข้อมูลของเรา ไม่มีคำตอบตายตัว เช่น การทำ market segmentation ด้วย k-means หรือเทคนิคการลดตัวแปรด้วย PCA

Free Online Curriculum

หลักสูตรนี้ออกแบบมาสำหรับผู้ที่ไม่มีประสบการณ์เขียนโปรแกรมใดๆมาก่อนเลย ทั้งหมด 12 คอร์สสอนเป็นภาษาอังกฤษ สมัครเรียนฟรีหรือจะอัพเกรดเพื่อรับใบ certificate ก็ได้

Excel & SQL

  • edX – Microsoft Excel for Data Analyst
  • Coursera – SQL for Data Science

Intro to Programming

  • edX – Introduction to R for Data Science
  • edX – Introduction to Python for Data Science

Statistics and EDA

  • Udacity – Intro to Statistics
  • Udacity – Intro to Data Analysis with R
  • Udacity – A/B Testing
  • edX – Data Wrangling

Data Visualization

  • edX – Analyzing and Visualizing Data with Power BI
  • Udacity – Data Visualization in Tableau

Machine Learning (เพิ่มเติม)

  • Udacity – Intro to Machine Learning
  • Udacity – Data Science Interview Prep

#tip เพื่อนๆสามารถเรียนตามลำดับคอร์สที่เราแนะนำได้เลย R vs. Python จะเรียนตัวไหนก่อนก็ได้ จริงๆเราแนะนำว่าเขียนภาษาแรกให้คล่องก่อน แล้วเด๋วภาษาต่อๆไปจะง่ายขึ้นเอง

Also Learn English

Learn-English
Source: http://www.stgeorges.co.uk/blog/7-reasons-to-learn-english

และภาษาที่สำคัญที่สุด ก่อนที่จะเริ่มเรียน 12 คอร์สด้านบนได้ ทุกคนต้องพอเข้าใจภาษาอังกฤษบ้าง (ไม่ต้อง perfect แต่อ่านออกเขียนได้เบื้องต้น) หนังสือภาษาไทยด้าน data science ยังน้อยมาก และถ้ามีให้อ่าน ส่วนใหญ่ก็อ่านไม่ค่อยรู้เรื่องด้วย 555+ #อันนี้พูดจริงๆ เรียนออนไลน์เป็นภาษาอังกฤษดีกว่า

The secret of getting ahead is getting started.

— Mark Twain

หวังว่าบทความนี้จะเป็นประโยชน์สำหรับทุกคนที่อยากเป็น data analyst ชอบกด like ใช่กด share ให้เพื่อนได้อ่านด้วยนะคร้าบ

#DataRockie — สมัครเรียนฟรีออนไลน์คอร์สของเราได้เช่นกันที่ https://datarockie.com


Appendix

EDA คือ Exploratory Data Analysis เป็นแนวคิดวิธีการ explore ข้อมูลที่เกิดขึ้นมาโดย John Tukey ในปี 1977 ซึ่งเป็นแรงบันดาลใจของ visualization software อย่าง Tableau ลองดูตัวอย่างการทำ EDA ได้ที่บทความนี้

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s