Taxi Meter and Linear Regression

ถ้าคุณเคยนั่งแท๊กซี่ในประเทศไทย แปลว่าคุณเข้าใจคอนเซปต์ของ linear regression แล้ว (แค่ยังไม่รู้ตัว หื๊มมมม) บทความวันนี้เดี๋ยวเราจะมาอธิบายให้อ่าน ฉบับเข้าใจง่ายมากกก! ว่า linear regression คืออะไร และมันทำงานอย่างไร?

การคำนวณค่าโดยสาร

taxi meter ปกติจะเริ่มที่ 35 บาท แค่เราขึ้นไปนั่งก็ต้องจ่าย 35 บาทแล้ว และเดินทางได้แค่ 1 กม. แรกเท่านั้น ราคาค่าโดยสารจะเพิ่มขึ้นเรื่อยๆตาม ระยะทาง สมมติว่าค่ามิเตอร์เพิ่มขึ้น กม. ละ 5 บาท เราจะเขียนสมการค่าโดยสารของ taxi ได้แบบนี้

ค่าโดยสารแท๊กซี่ = 35 + (5 * ระยะทาง)

ถ้าเราเรียกแท๊กซี่กลับบ้าน ระยะทาง 10 กิโลเมตร สมมติว่ารถไม่ติดเลย เราจะเสียเงินประมาณ 35 + 5*9 = 80 บาท และสมการด้านบนนี้เองที่เราเรียก simple linear regression !!

ทำไมต้องคูณ 9? เพราะว่ากิโลเมตรแรกเราคิด 35 บาทไปแล้ว เลยเหลือแค่ 9 กม. คูณ 5 บาทต่อกิโล

สมการเส้นตรง

รูปแบบ linear regression ที่ง่ายที่สุดคือสมการเส้นตรงธรรมดานี้เอง (ที่เราเรียนมาตั้งแต่ประถม) ถ้ามีตัวแปรต้น (x) แค่หนึ่งตัวเราจะเรียกว่า “simple” แต่ถ้ามีตัวแปรต้นมากกว่าหนึ่งตัว เราจะเรียกว่า “multiple” แต่การทำงานมันก็ยังเหมือนเดิม เขียนเป็น general form ได้แบบนี้

y = b_0 + b_1 x_1

y = b_0 + b_1 x_1 + b_2 x_2 + b_3 x_3 + ... + (b_k x_k)

โดยที่ b_0 คือ intercept หรือจุดตัดแกนตั้ง ส่วน b_1 คือค่า regression coefficient หรืออธิบายง่ายๆคือ slope ของสมการเส้นตรงนั้นเอง กลับไปที่ตัวอย่าง taxi meter ของเรา หน้าตาของสมการค่าโดยสารจะสร้างเป็นกราฟได้แบบนี้

Picture1
0-1 กม. แรกจ่ายแค่ 35 บาท และเพิ่มขึ้น กม. ละ 5 บาท (ตัวเลขสมมติ)

ความหมายของ slope ในสมการ linear regression คือ ถ้า x เปลี่ยนแปลงไปหนึ่งหน่วย y จะเปลี่ยนแปลงเท่าไร ในกรณีของ taxi meter คือ ระยะทาง (x) ที่เพิ่มขึ้นหนึ่ง กม. ค่าโดยสาร (y) จะเพิ่มขึ้น 5 บาท

โมเดลที่ซับซ้อนยิ่งขึ้น

จริงๆแล้วปัจจัยหลักๆที่ส่งผลต่อ taxi meter ในประเทศไทยมีอยู่สองตัว คือ

  • ระยะทาง
  • เวลาที่อยู่บนถนน (รถติดไม่ติด)

เขียนเป็นสมการได้แบบนี้  taxi fare = 35 + b_1 * distance + b_2 * time

อ้างอิงจากหลายๆแหล่งข้อมูลที่แอดไปหาอ่านมาออนไลน์ เค้าบอกว่าถ้ารถติดบนถนน เคลื่อนที่ได้ช้ากว่า 6 กม. ต่อชั่วโมง ค่ามิเตอร์จะเพิ่มขึ้นอีกนาทีละ 2 บาท !! ส่วนราคาค่าโดยสารต่อระยะทาง ยิ่งวิ่งระยะทางไกลขึ้น ราคาต่อ กม. จะสูงขึ้นเช่นกัน

สรุปบทความนี้

  • linear regression คือสมการเส้นตรงที่เราใช้อธิบายปรากฏการณ์ต่างๆในชีวิตประจำวันได้ง่ายๆ อย่างเรื่องการคิดค่าโดยสาร taxi meter
  • linear regression ใช้ทำนายค่าโดยสาร หรือตัวแปรตาม (y) ที่เป็นแบบ numeric
  • ในชีวิตจริง ความสัมพันธ์ของตัวแปร x y อาจจะไม่ได้ชัดเจนเหมือนกับตัวอย่างมิเตอร์วันนี้ แปลว่าค่า intercept และ b1 b2 b3 coefficients ในโมเดลที่เราสร้างขึ้นมาเป็นเพียงแค่ค่าประมาณการเท่านั้น i.e. approximation
  • อ่านเพิ่มเติมวิธีการสร้าง linear regression ใน Excel ง่ายๆได้ที่บทความเก่าของเรา simple linear regression และ multiple linear regression

เรียนฟรีออนไลน์กับเรา

สมัครเรียนฟรีคอร์สออนไลน์ R Python SQL SPSS ได้ที่ https://datarockie.com

ชอบกด Like ใช่กด Share ติดตามบทความใหม่ๆกับเราได้ตลอดทั้งปี

#DataRockie — Never Stop Learning

 

 

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s