Statistics

การคิดค่าโดยสารแท๊กซี่และโมเดล Linear Regression

อธิบายการคำนวณค่าโดยสารแท๊กซี่ในประเทศไทย ด้วย linear regression

ถ้าคุณเคยนั่งแท๊กซี่ในประเทศไทย แปลว่าคุณเข้าใจคอนเซปต์ของ linear regression แล้ว (แค่ยังไม่รู้ตัว หื๊มมมม) บทความวันนี้เดี๋ยวเราจะมาอธิบายให้อ่าน ฉบับเข้าใจง่ายมากกก! ว่า linear regression คืออะไร และมันทำงานอย่างไร?

การคำนวณค่าโดยสาร

taxi meter ปกติจะเริ่มที่ 35 บาท แค่เราขึ้นไปนั่งก็ต้องจ่าย 35 บาทแล้ว และเดินทางได้แค่ 1 กม. แรกเท่านั้น ราคาค่าโดยสารจะเพิ่มขึ้นเรื่อยๆตาม ระยะทาง สมมติว่าค่ามิเตอร์เพิ่มขึ้น กม. ละ 5 บาท เราจะเขียนสมการค่าโดยสารของ taxi ได้แบบนี้

ค่าโดยสารแท๊กซี่ = 35 + (5 * ระยะทาง)

ถ้าเราเรียกแท๊กซี่กลับบ้าน ระยะทาง 10 กิโลเมตร สมมติว่ารถไม่ติดเลย เราจะเสียเงินประมาณ 35 + 5*9 = 80 บาท และสมการด้านบนนี้เองที่เราเรียก simple linear regression !!

ทำไมต้องคูณ 9? เพราะว่ากิโลเมตรแรกเราคิด 35 บาทไปแล้ว เลยเหลือแค่ 9 กม. คูณ 5 บาทต่อกิโล

สมการเส้นตรง

รูปแบบ linear regression ที่ง่ายที่สุดคือสมการเส้นตรงธรรมดานี้เอง (ที่เราเรียนมาตั้งแต่ประถม) ถ้ามีตัวแปรต้น (x) แค่หนึ่งตัวเราจะเรียกว่า “simple” แต่ถ้ามีตัวแปรต้นมากกว่าหนึ่งตัว เราจะเรียกว่า “multiple” แต่การทำงานมันก็ยังเหมือนเดิม เขียนเป็น general form ได้แบบนี้

y = b0 + b1*x1
y = b0 + b1*x1 + b2*x2 + b3*x3 + ... + (bk*xk)

โดยที่ b0 คือ intercept หรือจุดตัดแกนตั้ง ส่วน b1 คือค่า regression coefficient หรืออธิบายง่ายๆคือ slope ของสมการเส้นตรงนั้นเอง กลับไปที่ตัวอย่าง taxi meter ของเรา หน้าตาของสมการค่าโดยสารจะสร้างเป็นกราฟได้แบบนี้

Picture1
0-1 กม. แรกจ่ายแค่ 35 บาท และเพิ่มขึ้น กม. ละ 5 บาท (ตัวเลขสมมติ)

ความหมายของ slope ในสมการ linear regression คือ ถ้า x เปลี่ยนแปลงไปหนึ่งหน่วย y จะเปลี่ยนแปลงเท่าไร ในกรณีของ taxi meter คือ ระยะทาง (x) ที่เพิ่มขึ้นหนึ่ง กม. ค่าโดยสาร (y) จะเพิ่มขึ้น 5 บาท

โมเดลที่ซับซ้อนยิ่งขึ้น

จริงๆแล้วปัจจัยหลักๆที่ส่งผลต่อ taxi meter ในประเทศไทยมีอยู่สองตัว คือ

  • ระยะทาง
  • เวลาที่อยู่บนถนน (รถติดไม่ติด)

เขียนเป็นสมการได้แบบนี้ taxi fare = 35 + b1*distance + b2*time

อ้างอิงจากหลายๆแหล่งข้อมูลที่แอดไปหาอ่านมาออนไลน์ เค้าบอกว่าถ้ารถติดบนถนน เคลื่อนที่ได้ช้ากว่า 6 กม. ต่อชั่วโมง ค่ามิเตอร์จะเพิ่มขึ้นอีกนาทีละ 2 บาท !! ส่วนราคาค่าโดยสารต่อระยะทาง ยิ่งวิ่งระยะทางไกลขึ้น ราคาต่อ กม. จะสูงขึ้นเช่นกัน

สรุปบทความนี้

  • linear regression คือสมการเส้นตรงที่เราใช้อธิบายปรากฏการณ์ต่างๆในชีวิตประจำวันได้ง่ายๆ อย่างเรื่องการคิดค่าโดยสาร taxi meter
  • linear regression ใช้ทำนายค่าโดยสาร หรือตัวแปรตาม (y) ที่เป็นแบบ numeric
  • ในชีวิตจริง ความสัมพันธ์ของตัวแปร x y อาจจะไม่ได้ชัดเจนเหมือนกับตัวอย่างมิเตอร์วันนี้ แปลว่าค่า intercept และ b1 b2 b3 coefficients ในโมเดลที่เราสร้างขึ้นมาเป็นเพียงแค่ค่าประมาณการเท่านั้น i.e. approximation
  • อ่านเพิ่มเติมวิธีการสร้าง linear regression ใน Excel ง่ายๆได้ที่บทความเก่าของเรา simple linear regression และ multiple linear regression

One comment

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.