Simple Linear Regression in Excel

Regression Analysis คือเทคนิคทางสถิติที่ใช้ quantify ความสัมพันธ์ระหว่างตัวแปรต้น (x) และตัวแปรตาม (y) และเป็น algorithms สำคัญในการทำ prediction และ forecasting

โดยคำว่า “Regression” ถูกนำมาใช้ครั้งแรกโดย Sir Francis Galton ในปี 1875 จากการค้นพบปรากฎการณ์ที่เรียกว่า Regression towards the mean

ส่วน Regression ที่พวกเราต้องเรียนเป็นตัวแรกคือ Linear Regression นั่นเอง ทำไมต้องเรียนก่อน? เพราะว่ามันง่ายที่สุดแล้วฮะ 555+ (หลายคนคิดในใจ นี่ง่ายแล้วเหรอออออออ?) ง่ายจริงๆ!! ถ้าอ่านบทความวันนี้จบทำเป็นแน่นอน

วันนี้เราจะสอนสร้าง Simple Linear Regression ง่ายๆด้วยโปรแกรม Excel ใช้แค่ 4 functions


Simple Linear Regression (SLR)

Untitled design
Photo by Headway on Unsplash

สำหรับสมการ SLR เบื้องต้น เขียนได้แบบนี้ y = b_0 + b_1x_1

โดยที่ค่า b_0 เรียกว่า y-intercept (จุดตัดแกนตั้ง) ส่วน b_1 คือ slope (ความชันของสมการเส้นตรง)

ที่เราเรียกว่า simple เพราะว่าสมการนี้มีตัวแปรต้น (x) แค่ตัวเดียว เราสามารถคำนวณค่า correlation, R-squared, intercept และ slope ด้วย 4 Excel Functions ด้านล่าง ตามลำดับ

  • correl
  • rsq
  • intercept
  • slope

ดาวน์โหลด Excel File ตัวอย่างได้ในลิ้งนี้ แอดเขียนสูตรไว้หมดแล้วใน sheet SLR โจทย์คือหาความสัมพันธ์ระหว่างตัวแปร MPG (miles per gallon) และ HP (horsepower) ของรถยนต์ n=15 คัน

  • CORREL(B2:B16, C2:C16) = -0.8720
  • RSQ(B2:B16, C2:C16) = 0.7604
  • INTERCEPT(B2:B16, C2:C16) = 27.6333
  • SLOPE(B2:B16, C2:C16) = -0.0638

โดยที่ cell B2:B16 คือข้อมูลตัวแปรตาม MPG (y) และ cell C2:C16 คือข้อมูลตัวแปรต้น HP (x)


Interpretation

สำหรับสมการ Simple Linear Regression ที่เราได้จากตาราง output ด้านบน เขียนได้แบบนี้

mpg = b_0 + b_1hp

mpg = 27.6333 - 0.0638 hp

โดย SLR model ของเรามีค่า R-squared เท่ากับ 0.7604 แปลว่าตัวแปรต้น (HP) อธิบายความแปรปรวนของตัวแปรตาม (MPG) ได้ประมาณ 76.04% (อีกชื่อหนึ่งของ R-squared คือ Explained Variance)

ซึ่ง R-squared ของโมเดล SLR จริงๆก็คือการเอาค่า Correlation (r) มายกกำลังสองตรงๆเลย ถ้าเราเอา -0.8720**2 จะมีค่าเท่ากับ 0.7604 พอดี ที่เราควรรู้คือ R-squared จะวิ่งอยู่ระหว่าง 0 ถึง 1 ยิ่งค่าเข้าใกล้หนึ่งแปลว่าตัวแปรต้น (x) อธิบายตัวแปรตาม (y) ได้ดียิ่งขึ้น

  • Intercept (b_0) = 27.6333 ปกติเราจะไม่ค่อยอ่านค่า intercept เท่าไร เหมือนการมีอยู่ของ b_0 นั้นช่วยเรื่อง prediction ให้แม่นยำขึ้นเฉยๆ (งานวิจัย machine learning นิยมเรียก intercept ว่า bias)
  • Slope (b_1) = -0.0638 มีค่าติดลบ แปลว่าความสัมพันธ์ระหว่าง HP และ MPG สวนทางกัน ถ้า HP ลดลงหนึ่งหน่วย MPG จะเพิ่มขึ้น 0.0638 ไมล์ | หรือถ้า HP เพิ่มขึ้นหนึ่งหน่วย MPG จะลดลง 0.0638 ไมล์

สรุป – โดยทั่วไปรถยนต์ที่มีแรงม้าสูง (HP) มีแนวโน้มที่จะบริโภคน้ำมันสูงขึ้นเช่นกัน (i.e. MPG ลดลง)


Correlation Does Not Imply Causation

ข้อควรระวังเวลาอ่านผล Regression คือมันไม่สามารถใช้พิสูจน์เรื่อง Causation ได้ นอกจากงานวิจัยของเราจะเป็น experiment แบบจริงจัง

ในชีวิตจริงยังมีอีกหลายปัจจัยที่ส่งผลต่อ MPG ของรถยนต์คันหนึ่งๆ เช่น เทคโนโลยีการผลิต น้ำหนักรถยนต์ เป็นต้น ซึ่ง SLR ที่เราอธิบายในบทความนี้ยังไม่ได้ศึกษาความสัมพันธ์ระหว่าง MPG กับตัวแปรต้น (x_i) ตัวอื่นๆเลย


Prediction

mpg = 27.6333 - 0.0638 hp

สมมติว่ามีรถยนต์คันใหม่ HP เท่ากับ 200 (new data) แทนค่า 200 เข้าไปในสมการด้านบน เราจะ predict ว่ารถยนต์คันใหม่นี้มี MPG = 27.6333 – (0.0638 * 200) เท่ากับ 14.8733


Key Learnings

SLR
สร้าง Scatter Plot ด้วยโปรแกรม Excel และแสดงสมการ linear regression พร้อมค่า R-squared
  • Regression คือโมเดลทางสถิติที่ใช้ quantify ความสัมพันธ์ของตัวแปรต้น (independent x) และตัวแปรตาม (dependent y)
  • Linear regression ตัวแปรตามต้องเป็นแบบ continuous เชิงปริมาณเท่านั้น
  • เวลาสร้างชาร์ท scatter plot สำหรับ SLR ตัวแปรต้นจะอยู่แกนนอน ตัวแปรตามอยู่แกนตั้ง
  • SLR มีตัวแปรต้นหนึ่งตัว เป็นโมเดลที่ง่ายที่สุดในตระกูล Regression

เราสามารถ extend model ของเราด้วยการเพิ่มตัวแปรต้น (x_i) เข้าไปในสมการมากกว่าหนึ่งตัว SLR จะเปลี่ยนเป็น Multiple Linear Regression (MLR) เดี๋ยวเราจะอธิบายการทำงานของ MLR ในบทความต่อไป พร้อมสอนทำใน Excel ด้วยฟังชั่น LINEST

ติดตามข่าวสาร อัพเดทความรู้สถิติ | data science | programming ฟรีตลอดชีวิตที่ facebook ของเรา DataRockie

2 thoughts on “Simple Linear Regression in Excel

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.