Statistics

วิธีทดสอบ Statistical Significance แบบไม่ต้องใช้ p-value

“ทำได้จริงหรอวะ ไม่ใช้ p-value ไม่ต้องมี alpha .05?” หลายคนที่กดเข้ามาอ่านบทความนี้น่าจะมีคำถามนี้ในใจ งั้นเราขอตอบเลยสั้นๆว่า “ทำได้จริง” โดยเทคนิคที่เราจะสอนวันนี้เป็นเทคนิคที่บริสุทธิ์ที่สุด – Pure Statistics – ถ้าไม่เคยได้ยินคำนี้มาก่อน ก็ไม่ต้องแปลกใจเพราะแอดคิดขึ้นมาเองเลย (ที่แรกของโลก!!) 555+

Spoiler สามวิธีที่ทำให้เราไม่ต้องใช้ p-value
[1] ใช้ข้อมูลประชากรทั้งหมดโดยไม่ต้องทำ sampling [2] ใช้ pure statistics ที่คำนวณจากการทำ repeated experiments ด้วยตัวเอง หรือ [3] เปลี่ยนไปใช้ Bayesian approach
 Pure Statistics คือค่าสถิติ (และความน่าจะเป็น) ที่ได้จากการทำ ACTUAL repeated experiments ทดลองหรือเก็บข้อมูลซ้ำไปเรื่อยๆ บันทึกและสรุปผลงานวิจัยของเราโดยไม่ต้องพึ่งทฤษฏีสถิติใดๆเลย .

ก่อนที่จะอ่านต่อ เราขอการันตีว่าสิ่งที่ทุกคนจะได้อ่านจากบทความนี้เป็น FACT สามารถทำได้จริง 100% ภายใต้เงื่อนไขข้อเดียวคือ “นักวิจัยมีเวลาเก็บข้อมูล <ทำซ้ำ> มากพอเพื่อให้ได้ค่าสถิติที่น่าเชื่อถือ”

What is Sampling?

หัวใจของสถิติศาสตร์คือการสุ่มตัวอย่าง <sampling> เหตุผลที่ทำให้การสุ่มตัวอย่างเป็นเรื่องจำเป็นในการวิเคราะห์ข้อมูลทางสถิติ เพราะว่ามนุษย์มีข้อจำกัดในการเก็บข้อมูลหรือเข้าถึงประชากรขนาดใหญ่ที่เราสนใจ <target population>

sampling คือกระบวนการสุ่มตัวอย่างจากประชากรที่เราสนใจ

ตัวอย่างเช่นการเลือกตั้ง อ้างอิงจากสถิติในปี 2557 มีผู้ออกไปใช้สิทธิ์เลือกตั้งแค่ 20.53 ล้านคน คิดเป็น 47.72% จากจำนวนผู้มีสิทธิเลือกตั้งทั้งหมดในประเทศไทย หรือพูดแบบนักสถิติ ผลการเลือกตั้งก็เป็นแค่ข้อมูลที่ได้จากการสุ่มตัวอย่างเท่านั้นเอง จะให้คนไทยออกไปใช้สิทธิให้ครบ 100% แทบจะเป็นไปไม่ได้เลยในทางปฏิบัติ (หรือถ้าทำได้จริงก็ต้องใช้เงินและเวลาเยอะมาก)

และจุดที่ทุกคนควรรู้อยู่ตรงนี้ การทำ sampling บังคับให้เราต้องมีการทดสอบสมมติฐาน <hypothesis> และต้องใช้ p-value ในการสรุปผล significance ของสมมติฐานนั้นๆ

Hypothesis คืออะไร?
สมมติฐานที่เรามีเกี่ยวกับประชากรที่เราสนใจ เช่น ลุงตู่น่าจะได้คะแนนเสียงจากการเลือกตั้ง 60% แล้วเราก็ออกไปเก็บข้อมูล sampling และทำ significance test เพื่อทดสอบสมมติฐานนี้ด้วยค่า p-value <= .05

สรุปสั้นๆ ถ้าเราสามารถเก็บข้อมูลประชากรทั้งหมดที่เราสนใจได้โดยไม่ต้องสุ่มตัวอย่าง ก็ไม่มีเหตุผลที่ต้องใช้ p-value อีกต่อไปเพราะไม่มีสมมติฐานให้ทดสอบอีกแล้ว ทุกผลลัพธ์ที่ได้จาก population คือ pure FACT!

Repeated Experiments

แต่อย่างที่เราเกริ่นไปในตอนแรก การเก็บข้อมูลประชากรทั้งหมดเป็นเรื่องยาก การทำ sampling ยังเป็นสิ่งจำเป็น (ณ เวลานี้) แล้วเราจะหยุดใช้ p-value ได้ยังไง?

ทริคอยู่ที่ค่า p-value ตามทฤษฎีของ Fisher ถูกคำนวณมาจากการสุ่มตัวอย่างแค่หนึ่งครั้ง !!  ถ้าเราสุ่มตัวอย่างมากกว่าหนึ่งครั้ง และทำซ้ำให้มากพอ เราสามารถหยุดใช้ p-value ในการทดสอบสมมติฐานได้เลย เทคนิคนี้เรียกว่า Repeated Experiments หรือ Repeated Data Collection 

repeated data collection สุ่มตัวอย่างซ้ำหลายๆครั้ง

กลับมาที่ตัวอย่างการเลือกตั้ง เพราะว่าเรายังจำเป็นต้องใช้การสุ่มตัวอย่าง -> hypothesis ของเราคือลุงตู่จะได้เป็นนายกต่ออีกหนึ่งสมัย ทำการสุ่มตัวอย่างทั้งหมด 10 รอบ รอบละ 1000 คนแบบ Random Sampling ทั่วประเทศไทย ถามคำถามข้อเดียวเลยคือ “คุณสนับสนุนลุงตู่เป็นนายกต่ออีกสมัยหรือเปล่า?”

บันทึกข้อมูลทั้งหมดลงในโปรแกรม Excel แล้วคำนวณความน่าจะเป็นของสมมติฐานที่เราตั้งไว้

Your Result is Pure

คอลั่ม B คือ % ที่ผู้ตอบแบบสอบถามตอบใช่ โหวตให้นายกตู่เป็นนายกอีกหนึ่งสมัย ส่วนคอลั่ม C เราใช้ threshold = 0.50 ถ้าคะแนนเสียงในคอลั่ม B มากกว่า 0.50 เราจะสรุปว่า “ลุงตู่จะได้เป็นนายกต่ออีกสมัย”

Result – ลุงตู่มีโอกาสได้เป็นนายกต่อสูงถึง 80% คำนวณจาก Y=8/10 ในคอลั่ม C โดยมีค่าเฉลี่ยคะแนนเสียงเท่ากับ 57.30% [min = 45%, max = 66%, sd = 6.75%]

example dataset ในโปรแกรม Excel
Pure ใน context ของบทความนี้แปลว่าอะไร?
Pure เพราะว่าเราเก็บข้อมูลจริง ทำซ้ำด้วยตัวเอง และใช้การคำนวณที่ง่ายที่สุดเพื่อหาความน่าจะเป็นของสมมติฐานนั้นๆ

หัวใจสำคัญของบทความนี้คือ ยิ่งเราเก็บข้อมูลซ้ำมากขึ้นเท่าไร เราก็จะได้ผลสถิติที่ Robust / Pure มากขึ้นเท่านั้น i.e. ใกล้เคียงกับความจริง (FACT) โดยที่ไม่ต้องใช้ค่า p-value ในการสรุปผล significance เลย

Collaboration is The Answer

การร่วมมือกันของสถาบันวิจัยต่างๆคือทางออกในการแก้ปัญหา underpowered statistics

สำหรับงานวิจัยบางประเภทที่การเก็บข้อมูลให้ได้ good enough sample เป็นเรื่องยากมาก เช่น medical experiment ต่างๆ เราขอเสนอแนวทางปฏิบัติดังนี้

  1. ถ้าคำนวณแล้วคิดว่า drop out จะสูงมาก สุดท้ายได้ sample แค่ 10-20 คน ไม่ต้องทำวิจัยนั้นให้เสียเวลา อย่าเอาสถิติไป abuse กับกลุ่มตัวอย่างเล็กๆ เชื่อพี่!
  2. การร่วมมือกันของสถาบันหรือโรงพยาบาลทั้งหมดในประเทศไทย คือการแก้ปัญหาเรื่องนี้อย่างจริงจัง ถ้ามีการทำ collaboration ช่วยกันเก็บข้อมูลผู้ป่วยหรือสร้าง centralized data warehouse เรามีโอกาสแก้ปัญหาเรื่อง small sample ได้แน่นอน!

No References

บทความนี้ไม่มีแหล่งอ้างอิง เพราะแอดคิด method นี้ขึ้นมาเอง 555+ ทฤษฎีที่ใกล้เคียงกับเนื้อหาวันนี้มากที่สุดคือ Central Limit Theorem และการทำ Bootstrap Sampling ต่างกันนิดเดียวที่เราเสนอให้นักสถิติทำ ACTUAL repeated experiments ไม่ได้ทำ simulation หรือมโน confidence interval ขึ้นมาเองด้วยการประยุกต์ใช้ CLT หรือ Bootstrap statistics

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.