Data Science Skill Comparison

อยากเป็น data analyst อยากเป็น data scientist อยากรวยยยยย #เด๋วๆๆ

วันนี้เราจะมาไขข้อข้องใจของทุกคนเองว่าแต่ละตำแหน่งเค้าทำอะไร และต้องมีทักษะที่จำเป็นอะไรบ้าง แต่ก่อนที่เราจะเฉลยคำตอบทั้งหมด สิ่งแรกที่ต้องรู้คือรูปแบบการทำ analytics หลักๆมีอยู่กี่แบบ?

4 Types of Data Analytics

x4_types_of_data_analytics-01.png.pagespeed.ic.oWB_BapLvk
Source: https://www.scnsoft.com/blog/4-types-of-data-analytics (ไอเดียนำเสนอครั้งแรกโดย Gartner)

อ้างอิงจาก KDnuggets การทำงานกับข้อมูลทุกวันนี้แบ่งออกได้เป็น 4 phases ใหญ่ๆที่พยายามจะตอบปัญหาที่แตกต่างกันไป

  1. Descriptive analytics – อะไรเกิดขึ้นในอดีต?
  2. Diagnostic analytics – ทำไมมันถึงเกิดขึ้น?
  3. Predictive analytics – อะไรจะเกิดขึ้นในอนาคต?
  4. Prescriptive analytics – แล้วเราต้องทำยังไงต่อ?

แล้วมันสำคัญยังไง? เพราะตำแหน่งงาน data ของเราขึ้นอยู่กับว่าเราทำ analytics หลักๆใน phase ไหนมากกว่ากัน ส่วนความยากของงานจะสูงขึ้นเรื่อยๆจาก phase 1 -> phase 4 เช่นเดียวกันกับคุณค่าทางธุรกิจ (business value)

#ตัวอย่าง CEO อยากรู้ว่าต้องทำยังไง market share เราถึงจะขึ้น +10% ในปี 2018? แบบนี้เป็น prescriptive analytics (ใครบอก CEO ได้ว่าต้องทำยังไง มึงเอาเงินโบนัสไปเลยฮะ 555555+)

ทุกวันนี้มี analytics แบบที่ 5 ที่เราเรียกว่า “Cognitive analytics” เกี่ยวข้องกับ natural language, learning & reasoning โดย phase นี้จะโคตร advanced เพราะดึงความสามารถของ artificial intelligence (AI) ออกมาช่วยแก้ปัญหา ตัวอย่างในด้าน commercial เช่น IBM Watson เป็นต้น


Forward or Backward?

รูปแบบการวิเคราะห์แบบ descriptive + diagnostic คือการมองกลับไปในอดีต (backward) ส่วน predictive + prescriptive คือการมองยาวไปในอนาคต (forward)

แบบไหนดีกว่ากัน? จริงๆทั้ง backward & forward สำคัญทั้งคู่เลย ถ้าเราไม่เข้าใจสิ่งที่เกิดมาในอดีต เราจะ predict อนาคตได้ยังไง? แต่การจะให้คนๆเดียวทำครบทั้ง 4 phases อาจจะใช้เวลามากเกินไป ในบริษัทนึงๆเลยแบ่งเป็นทีม เช่น data analyst (DA), data scientist (DS) และ data engineer (DE)

  • Data analyst รับผิดชอบงานวิเคราะห์ข้อมูลด้วยการ query, process, summarize, visualize data เขียน report เพื่อตอบปัญหาต่างๆที่เกิดมาในอดีต (backward – descriptive & diagnostic) ข้อจำกัดของ DA คือไม่ถนัดทำงานกับข้อมูลขนาดใหญ่ (big data) และไม่รู้เรื่อง database เท่าไร กู query เป็นอย่างเดียว 55555+
  • Data scientist เป็นคนที่เปลี่ยนข้อมูลดิบให้กลายเป็นความรู้ที่มีประโยชน์ต่อองค์กร งานจะ scope กว้างและลึกกว่า data analyst ทั่วไป ทำงานครบทั้ง 4 analytical phases เลย แต่งานจะมากองเยอะหน่อยตรง predictive analytics เพราะเครื่องมือและเทคนิคหลักที่ใช้กันทุกวันนี้คือ machine learning & optimization เริ่มจะมองไปที่อนาคตมากขึ้น
  • Data engineer ตำแหน่งงานนี้เกิดขึ้นมาเพื่อรองรับยุค big data เลย งานหลักคือสร้าง pipeline data ให้กับทุกคนในบริษัทได้ใช้งาน (ใช้ง่าย ไม่มีปัญหา clean & accurate) ตำแหน่งอื่นๆจะทำงานต่อกันลำบากมากถ้า DE ของเราไม่เจ๋งจริง สำหรับ DE งานหลักจะไม่เกี่ยวกับ analytics เท่าไร แต่เป็นผู้อยู่เบื้องหลังความสำเร็จด้าน analytics ขององค์กรอย่างแท้จริง

หมายเหตุ แต่ละบริษัทมีโครงสร้างองค์กรไม่เหมือนกัน หน้าที่ความรับผิดชอบอาจไม่ตรงกับบทความนี้ 100% อีกอย่างคือผู้บริหารสมัยนี้อยากให้เราทำได้ทุกอย่างเลย 55555 #ในเลขห้ามีน้ำตาซ่อนอยู่


R or Python? (or SQL?)

programmer
Source: Unsplash (picture by Alex Kotliarskyi)

หลายคนที่อยากเริ่มทำงานด้าน data analytics มักมีคำถามเข้ามาเสมอว่าจะเริ่มจากการเขียน R หรือ Python ดี? (ยังมี SAS อีกตัว) แต่ภาษาที่จำเป็นที่สุดสำหรับงาน analytics ทุกวันนี้ คือ SQL ต่างหาก

คำแนะนำสำหรับมือใหม่ ก่อนจะเริ่มเขียน R/ Python ควรเขียน SQL ให้เป็นก่อน ไม่ว่าอนาคตอยากจะเป็น data analyst, data scientist หรือ data engineer

SQL ย่อมาจากคำว่า Structured Query Language ใช้กันมาตั้งแต่ปี 1980s จริงๆมันอ่านว่า “เอส-คิว-แอล” แต่หลายคนเรียกสั้นๆว่า “ซี-เควล” เป็นภาษาทางการที่ใช้ในการ interact กับ database เช่น การ query, create, delete, update ฐานข้อมูล เป็นต้น

สำหรับ data analyst และ data scientist ใช้ SQL เยอะมาก เรียกว่าใช้ทุกวันเลยดีกว่าในการ query ข้อมูลขึ้นมาเพื่อวิเคราะห์และทำโมเดลอื่นๆต่อไปด้วย R/ Python/ SAS (ส่วนการ create, delete, update ปล่อยให้เป็นหน้าที่ของ data engineer หรือ database admin อื่นๆ)

ตัวอย่างภาษา SQL ง่ายๆ ที่ใช้ในการ query ปกติจะเริ่มต้นด้วย SELECT แล้วปิดท้ายด้วย ;

SELECT total_revenue
FROM table_name
WHERE year = 2017
ORDER BY total_revenue DESC;

ข้อดีของ SQL คือมันเขียนเหมือนภาษาอังกฤษธรรมดาเลย ใช้ verb ง่ายๆ เช่น select create insert delete update order where join ฯลฯ ดู list แบบเต็มๆได้ที่นี่

SQL สามารถหาเรียนออนไลน์ได้ไม่ยาก สมัคร account เรียนฟรี introduction to SQL for data science ได้บนเว็บ datacamp (ใช้เวลาเรียนประมาณ 2 ชั่วโมงก็จบแล้ว!)


Skill Comparison

content_screenshot_2017-02-23_14_26_33
Source: https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer

ทั้งสามตำแหน่งมี background ที่เฉพาะทางของตัวเอง แต่ตำแหน่งที่มีทักษะต่างจากคนอื่นมากที่สุดคือ Data engineer ที่เน้นเรื่องเทคโนโลยีและการเขียนโปรแกรมที่เกี่ยวข้องกับ big data เช่น Hadoop, Hive, Pig, MapReduce, SQL และ NoSQL ฯลฯ จะไม่ได้เน้นเรื่อง analytics มากนักเมื่อเทียบกับ DS/ DA

Data analyst ต้องมี background การทำ data analysis พื้นฐาน (basic statistics น่าจะเพียงพอ) เครื่องมือหลักคือ MS Excel, SQL, SPSS, Tableau, Power BI ฯลฯ หลังๆพวก packaged software เริ่มไม่เพียงพอกับความต้องการแล้ว DA เลยต้องเริ่มศึกษา programming languages อื่นๆเพิ่มเติม เช่น R หรือ Python (open-source) ลองดูหลักสูตร Data analyst nanodegree ของ Udacity ได้ที่นี่

Data scientist ต้องมี background การทำ statistical analysis & modeling รวมไปถึงความรู้ร่วมสมัยอย่าง machine learning (computer science + stat/ math) เครื่องมือหลักคือ SQL, Python, R, SAS, MATLAB และ library ที่ใช้ทำ visualization ต่างๆ ลองดูหลักสูตร Machine leaning engineer nanodegree ของ Udacity ได้ที่นี่


สรุป

  • Analytics ทุกวันนี้เป็นแบบ 4+1 เรื่อง cognitive เพิ่งมาบูมพร้อมๆกับ AI
  • สำหรับมือใหม่ อย่าเพิ่งไปเรียน R/ Python เลย เอา SQL ให้ได้ก่อนเนอะ (เรียนสองชั่วโมงก็เขียนเป็นแล้ว) จะเรียนบน datacamp ที่เราแนะนำ หรือไปดูวีดีโอฟรีของ Udacity’s intro to relational databases ก็ได้
  • Data analyst เน้นการวิเคราะห์ผลสถิติทั่วไป เก่งพวก spreadsheet (Excel) ดึงข้อมูลด้วย SQL ทำ visualization สวยๆด้วย Tableau/ Power BI และหนักไปทาง backward thinking
  • Data scientist เน้นการวิเคราะห์และสร้างโมเดลด้วย machine learning/ AI/ optimization จำเป็นต้องเขียนโปรแกรมให้ได้ ภาษาหลักๆที่ใช้คือ R/ Python (ฟรี) หรือ SAS/ MATLAB (เสียเงิน) หนักไปทาง forward thinking (พวก predictive models)
  • Data engineer เน้นหนักไปทาง technology ใหม่ๆที่เกี่ยวข้องกับ data warehouse/ data lake/ data modeling/ pipeline เพื่อรองรับ big data ทุกวันนี้

3 thoughts on “Data Science Skill Comparison

  1. เป็นการอธิบายและสรุปที่ทำให้เห็นภาพชัดเจนมากเลยค่ะแอด ขอบคุณนะคะ

    Like

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.