Data Never Lies?

The truth is rarely pure and never simple. (Oscar Wilde)

โลกเรามีข้อมูลใหม่เกิดขึ้นทุกวัน วันละประมาณ 2.5 quintillion bytes (source: IBM) ถ้าใครนึกไม่ออกว่ามันเยอะขนาดไหน มันคือ 2,500,000,000,000,000,000 bytes (10 ยกกำลัง 18)

Big Data มหาศาลนี้เองที่เป็นแรงขับเคลื่อนโลกของเราในศตวรรษที่ 21 คงไม่ผิดที่จะบอกว่ามนุษย์ใช้ data เป็นเครื่องมือในการหาความจริง (truth seeking) เพื่อแปรเปลี่ยนเป็นความรู้ (knowledge) ในการพัฒนาศักยภาพด้านอื่นๆของพวกเราต่อไปในอนาคต

แต่ Big Data ก็มาพร้อมกับปัญหาใหม่ เพราะมันทำให้การแยก signal ออกจาก noise | แยกข้อเท็จจริง (fact) ออกจากความคิดเห็น (opinion) | แยกความจริง (truth) ออกจากความเชื่อ (belief) ทุกวันนี้กลายเป็นงานที่ยากกว่าที่เคย

สื่อสังคมออนไลน์เป็นหนึ่งใน platform ที่มีข้อมูลเกิดขึ้นเยอะมากในแต่ละวัน ไม่ว่าจะเป็น comment post blog รวมถึงยอด like & share หากมองไปที่เบอร์หนึ่งของโลกอย่าง facebook จะพบว่าในเดือนหนึ่งๆ …

  • facebook มี active users > 2.07 พันล้านคน (newsroom)
  • สมาชิกกด share content > 3 หมื่นล้านครั้ง (kissmetrics)
  • สมาชิกกด like content > 1.7 แสนล้านครั้ง (hootsuite)

โดยเฉพาะประเทศไทยมีการใช้งาน facebook ติดท๊อป 10 ของโลกเลยทีเดียว สถิติปี 2017 มีคนไทยใช้งาน facebook ประมาณ 47 ล้านคน (Bangkok Post) ทุกวันเราเข้าไปบริโภคข้อมูลบนสื่อออนไลน์โดยที่เราไม่เคยหยุดคิดเลยว่าข้อมูลเหล่านั้นเป็นความจริง หรือมันเป็นแค่ความเห็น (หรือความเชื่อ)?

แล้วเราจะรู้ได้ยังไงว่าข้อมูลไม่ได้หลอกเราอยู่? data never lies เป็นประโยคที่ overrated มากๆ และบทความวันนี้จะอธิบายให้คุณเข้าใจเอง


Data never lies, HYPE!

TRUMP
Donald Trump ฉีกทุกผลโพลเลือกตั้งในปี 2016 Image Source: Wired

The truth will set you free, but first it will piss you off. (Joe Klaas)

ความจริงจะปลดปล่อยคุณ แต่มันจะทำให้คุณหัวเสียในตอนแรก … ปี 2016 Donald Trump ดูไม่มีโอกาสจะชนะการเลือกตั้งเลย บล๊อกพยากรณ์ชื่อดังอย่าง FiveThirtyEight ของ Nate Silver ทำนายโอกาสชนะของ Trump แค่ 28.6% แต่เราทุกคนรู้ผลการเลือกตั้งอยู่แล้วว่าสุดท้ายมันออกมาเป็นยังไง

ชัยชนะของ Trump ฉีกทุกโพลการเลือกตั้งทั่วโลก ด้วยเหตุผลง่ายๆคือ ข้อมูลกำลังโกหก และ facebook เป็นหนึ่งในตัวแปรสำคัญที่ทำให้ผลการเลือกตั้งออกมาค้านสายตาชาวโลกขนาดนี้

Mark Zuckerberg ที่ครั้งหนึ่งเคยปฏิเสธว่า facebook ไม่มีอิทธิพลในการเปลี่ยนผลการเลือกตั้ง ถึงกับเขียนบนหน้าวอลล์ตัวเองว่า “Calling [the idea misinformation on Facebook] crazy was dismissive and I regret it.” (ดู original post ของพี่มาร์คได้ที่ลิ้งนี่)

ในยุคที่ data science กำลังรุ่งเรือง ไม่แปลกที่ “data never lies” จะกลายเป็น media hype ที่ใครๆก็พูดกัน อารมณ์ประมาณว่า data ไม่เคยโกหก แต่คนที่แปลผลมันต่างหากที่ไม่เข้าใจจึงแปรผลผิด มีแต่ data scientist | statistician เท่านั้นที่จะเข้าใจ data จริงๆ … WTF?

Data never lies มีเงื่อนไขหลายข้อที่ต้องเป็นจริงก่อน → ประโยคนี้ถึงจะ valid

  • แหล่งที่มาต้องน่าเชื่อถือ (reliable source)
  • ข้อมูลถูกเก็บมาอย่างเหมาะสม (proper data collection)
  • ข้อมูลที่เก็บมา represent ปัญหาที่ต้องการจะแก้จริงๆ (representative)
  • ข้อมูลมาแบบเต็มๆ ไม่ใช่จากการสุ่ม (wholeness)
  • ข้อมูลถูกวิเคราะห์โดยคนที่เข้าใจสถิติ (statistics & domain expertise)
  • ถ้าเราเปลี่ยนกลุ่มตัวอย่างใหม่ ต้องได้ข้อสรุปไม่ต่างจากเดิม มีความต่อเนื่อง (replicability & consistency)

ถ้าเงื่อนไขด้านบนไม่ meet ก็จบ … ข้อมูลที่คุณได้ยินหรืออ่านเจอมามีแนวโน้มสูงมากที่กำลังหลอกคุณอยู่ และเงื่อนไขที่สำคัญที่สุดในการพิสูจน์ว่า data never lies คือข้อสุดท้ายที่เกี่ยวกับ replicability & consistency เพราะมันคือ “หัวใจของงานวิจัยทางวิทยาศาสตร์ทั้งหมดในโลกนี้เลย”

ข้อมูลหรืองานวิจัยใดที่ไม่สามารถทำซ้ำได้ ไม่สามารถให้บทสรุปที่ต่อเนื่องได้ ข้อมูลนั้นกำลังเจอกับปัญหาที่ร้ายแรงที่สุดของ science ทุกวันนี้ นั่นคือ “overfitting” (ชื่อเล่นของ hallucinating pattern)


อย่ามั่นใจเกินไป

conversion
Picture by Igor Ovsyannykov (Unsplash.com)

Hallucination (n.) ประสบการณ์ที่คุณรู้สึกเหมือนจริง แต่มันไม่ใช่ความจริง และไม่มีอยู่จริงเลย

Overfitting อธิบายแบบ layman’s terms คือการที่เราเชื่อในข้อมูลที่เรามีมากเกินไป เราคิดว่าสิ่งที่เห็นใน data เป็นเรื่องจริง แต่ความจริงกลับตรงข้ามกันอย่างสิ้นเชิง

อธิบายในเชิงเทคนิค overfitting คือการที่เรามี data → เราเจอ pattern ใน data → แต่ pattern นั้นมีอยู่จริงเฉพาะกับ data ก้อนนั้นเท่านั้น → ถ้าได้ data ใหม่มา pattern นั้นจะหายไป

ถ้าเราทำ A/B testing แล้วพบว่าการปรับเว็บไซต์ให้มี background สีฟ้าช่วยเพิ่ม conversion ให้กับเว็บของเรา (สรุปผลแบบ causality) แต่เพื่อนเราอีกบริษัทหนึ่ง (assume ว่าขายสินค้าเหมือนเรา target เดียวกัน) เปลี่ยน BG เป็นสีฟ้าเหมือนกันแต่ conversion ไม่มีการเปลี่ยนแปลงเลย

สีฟ้าอาจจะจริงสำหรับคุณแต่มันไม่จริงสำหรับคนอื่น ถ้ายังยืนยันว่าสีฟ้าช่วยเพิ่ม conversion จริง → คุณกำลังดำดิ่งสู่ปัญหา overfitting เต็มๆ เพราะความสัมพันธ์ที่คุณเจอ (สีฟ้าและ conversion) เป็นแค่ fake causality ถึงแม้จะผ่านการทำ A/B testing มาแล้วก็ตาม

อย่ามั่นใจเกินไปกับข้อมูลที่คุณเก็บมา เพราะ data often lies … สิ่งที่คุณเห็นอาจเป็นแค่ภาพลวงตา ตั้งแต่เกิดมาคุณ overfit ข้อมูลกับความเชื่อของคุณมาแล้วกี่ครั้ง? … น่าจะนับครั้งไม่ถ้วน … แล้วเราจะสร้างภูมิต้านทานต่อปัญหา overfitting ได้ยังไง?

Scott Adams นักวาดการ์ตูน|นักเขียนชื่อดังมีทางออก … เริ่มหัดใช้ truth filters สิ

Footnotes
Causality เป็นคำที่มีความหมายหนักแน่นมาก ถ้าจะบอก x เป็น cause และ y เป็น effect (x → y) ต้องอาศัยการพิสูจน์ที่หนักแน่นมากเช่นกัน นอกจากการ design experiment อย่างเป็นระบบ ผลลัพธ์ยังต้องทนต่อการทดสอบในอนาคตอีกด้วย เพราะนักวิทยาศาสตร์คนอื่นๆจะพยายามล้ม causality ที่คุณเจอมา ถ้าสิ่งที่คุณเจอมัน stands the test of time → มันจะกลายเป็น theory ไปในปริยาย อ่านเพิ่มเติมเรื่อง falsification ได้ที่นี่

ฟิลเตอร์ความจริง

Scott Adams
Scott Adams ผู้แต่ง Dilbert series การ์ตูนเชิงธุรกิจที่ประสบความสำเร็จมากที่สุดของโลก

อ้างอิงจากหนังสือ How to fail at almost everything and still win big (2014) โดย Scott Adams ได้เสนอวิธีการแยกความจริง (truth) ออกจากความเชื่อ (belief) มา 6 วิธีดังนี้

  1. ประสบการณ์ตรงของเรา (personal experience)
  2. ประสบการณ์ของคนอื่นที่เรารู้จัก (experience of people you know)
  3. ผู้เชี่ยวชาญ (experts)
  4. งานวิจัยทางวิทยาศาสตร์ (scientific studies)
  5. ใช้ common sense
  6. การเชื่อมโยง pattern ต่างๆที่เราเห็น (pattern recognition)

สิ่งที่ใกล้เคียงกับ truth มากที่สุดคือ “consistency” โดย Scott แนะนำว่าเวลาที่เราพยายามจะหาข้อสรุปว่าสิ่งที่เราได้ยินได้อ่านมาเป็นเรื่องจริงหรือเปล่า? ให้เรามองหา confirmation (หรือ consistency) อย่างน้อยสองด้านใน 6 ฟิลเตอร์ด้านบน ยิ่งมาก ยิ่งดี

ตัวอย่างเช่น เราอ่านงานวิจัยทางวิทยาศาสตร์ที่สรุปผลว่าการกิน dark chocolate เป็นประจำช่วยลดน้ำหนัก (scientific studies) แต่เราเห็นเพื่อนเรากินเป็นประจำแล้วน้ำหนักมันขึ้นเอาๆ (experience of people you know) → แบบนี้เกิดความ inconsistency เพราะผลลัพธ์ของสองฟิลเตอร์มันขัดกันเอง

แปลว่าข้อมูลที่เราอ่านเจอมาอาจไม่เป็นความจริง การบริโภค dark chocolate → reduce weight มีแนวโน้มสูงขึ้นที่จะเป็นแค่ความเชื่อ (ลองเสิช Google จะพบว่ามีบทความที่อยากให้คนเชื่อเรื่องนี้เยอะมาก ถึงแม้จะไม่มีการพิสูจน์แบบจริงจังก็ตาม)

Footnotes
#1 Scott Adams เป็น public figure คนแรกๆในอเมริกาที่บอกว่า Trump จะชนะการเลือกตั้งในปี 2016 แปลว่า Truth filters ของเค้าทำงานได้ค่อนข้างดีทีเดียว หนังสือเล่มใหม่ของ Scott ชื่อ Win Bigly อธิบายวิธีคิดของเค้าไว้หมดแล้ว

#2 ในโลกของ machine learning เราเรียกการทดสอบโมเดลด้วย sample ใหม่ว่า train/test split หรือที่ใช้กันอย่างแพร่หลายคือการทำ cross-validation (CV) วิธีการที่ Scott เสนอเหมือนการทำ CV ในชีวิตจริงไม่พึ่งคอมพิวเตอร์

ผลวิจัยที่แปรปรวน

dark chocolate
Dark Chocolate Lowers ‘Bad’ Cholesterol And Blood Sugar Levels When Eaten In Moderation | Source: HuffingtonPost

ผลลัพธ์ของงานวิจัยทางวิทยาศาสตร์ส่วนใหญ่มันทำซ้ำไม่ได้ (fake causality)

อ้าว แต่หลายคนบอกว่า scientific studies เค้าทำการทดลองมาแล้วจะ A/B testing หรือ Randomized Controlled Trial (RCT) ทดสอบนัยสำคัญทางสถิติแบบจริงจังเลย ผลมันจะผิดได้ยังไง? … ถามแบบนี้แปลว่าคุณกำลัง overfit ความเชื่อของคุณอีกแล้ว!

งานวิจัยทางวิทยาศาสตร์ส่วนใหญ่มีโอกาสผิดสูงมาก โดยเฉพาะด้าน healthcare | medical | psychology มีปัญหาสำคัญคือ sample size น้อย (power ต่ำ) ทำให้งานวิจัยเหล่านั้นไม่สามารถทำซ้ำแล้วได้ผลเหมือนเดิม i.e. not replicable | cannot stand the test of time

ถ้าผลวิจัยมีความไม่แน่นอนยังน่าเชื่อถืออยู่อีกไหม? ในเมื่อเป้าหมายหลักของงานวิจัยทางวิทยาศาสตร์คือการสร้างกฎที่ทนต่อการถูก falsify (i.e. ทำซ้ำก็ได้ผลเหมือนเดิม: replicable) แรงโน้มถ่วงเป็นแรงโน้มถ่วงไม่ว่าใครจะทำการทดลองที่ไหนก็ได้ในโลกนี้ แต่กินดาร์คช๊อคโกแลตแล้วลดน้ำหนักได้เกิดขึ้นกับทุกคนหรือเปล่า? ก็คงไม่

อีกหนึ่งเหตุผลที่อธิบายปัญหา inconsistent results คือในเชิงสถิติ ค่า p-value เป็นตัวแปรสุ่มรูปแบบหนึ่ง (random statistics) ถ้าเราสุ่มตัวอย่างใหม่ ผลลัพธ์ที่ได้ก็จะเปลี่ยนไปเรื่อยๆเหมือนกัน เรียกสั้นๆว่า “variance

ที่เราพบว่า dark chocolate ช่วยลดน้ำหนักอย่างมีนัยสำคัญอาจจะเป็นแค่เรื่องบังเอิญ แต่เราก็บอกไม่ได้อยู่ดีเพราะว่า data กำลังโกหก ถึงแม้เราจะออกแบบงานวิจัยถูกต้องตามทฤษฏีทุกอย่างแล้วก็ตาม p-value ต่ำไม่ได้แปลว่าผลซิกที่ได้จะถูกเสมอ false positive เหมือนเงาที่ตามเราอยู่ตลอดเวลา


บทสรุป

eye
Picture by Amanda Dalbjörn (Unsplash.com)
  • ความจริงกับความเชื่อมีเส้นบางๆกั้นไว้นิดเดียว และคนส่วนใหญ่แยกไม่ออกด้วยซ้ำว่าอันไหนเรื่องจริง อันไหนเป็นเพียงความเชื่อ
  • Big data analytics เจอความท้าทายในการแยก true signal ออกจาก noise พูดง่ายแต่ทำโคตรยากในชีวิตจริง จนทุกวันนี้แค่ correlation ก็เพียงพอแล้ว + common sense (หรือจะใช้วิธีของ Scott Adams ก็ได้)
  • มนุษย์ส่วนใหญ่มี confirmation bias ง่ายที่จะถูกสมองหลอก เช่นการมองเห็น pattern ทั้งๆที่ pattern เหล่านั้นไม่มีจริง หรือมองเห็น noise เป็น true signal
  • A/B testing หรือ RCT พิสูจน์ causal relationship ไม่ได้ ถ้างานวิจัยเหล่านั้นไม่สามารถทำซ้ำแล้วได้ผลสรุปเหมือนเดิม (i.e. not replicable | cannot stand the test of time)
  • ในชีวิตจริง causation ไม่ได้พิสูจน์กันได้ง่ายๆ (direct, reversal, bidirectional causality) ถ้าทำแค่ A/B testing แล้วตอบได้ทุกความสัมพันธ์จริงๆ ปัญหาต่างๆในชีวิตคงแก้ได้หมดแล้ว i.e. reality is fucking complex
  • Data never lies ไม่จริงเสมอไป มีอีกหลายอย่างที่เราต้องรู้ก่อนเช่น แหล่งที่มา | วิธีการเก็บข้อมูล | all data หรือ sampling | วิเคราะห์ยังไง | ทำซ้ำได้ไหม ฯลฯ
  • ข้อมูลบางประเภทมี variance สูงกว่าแบบอื่นๆมาก เช่น survey data หรือผลโพลรูปแบบต่างๆ (มีครบทั้ง variance และ bias) ผลโพลที่เราเห็นตามสื่อต่างๆส่วนใหญ่เป็นแค่ one side of the coin
  • Overfitting เป็นปัญหาระดับชาติ เริ่มใช้ truth filters เพื่อ cross-validate ความเชื่อของคุณได้แล้ว

What’s the catch?

fake news 2
Picture by Kayla Velasquez (Unsplash.com)

หรือว่าบทความนี้ก็กำลังหลอกคุณอยู่เช่นกัน? เราจะรู้ได้ยังไงว่าข้อมูลที่เราอ่านเชื่อถือได้ และเป็นจริงในโลกทุกวันนี้ที่มันเต็มไปด้วย fake news | false knowledge | dirty data

งั้นเราขอสรุปให้ฟังแบบสั้นๆ ในขณะที่นักข่าวหรือบล๊อกเกอร์หลายๆคนนำเสนอข้อมูลที่เค้าได้รับเงินมาให้เขียนหรือนำเสนอ เช่น advertorial article รูปแบบต่างๆ … บล๊อกเราไม่ได้เงินซักบาทจากการเขียนเลย i.e. คือกูไม่ได้เหี้ยไรเลยครับ ยังจนเหมือนเดิม 55555+

แรงจูงใจในการเขียนบล๊อกอย่างเดียวของเราคือ “I want my readers to have new eyes” มีภูมิต้านทานเรื่อง false information ตอนนี้หลายคนน่าจะกำลังอ่านบทความนี้บนมือถือผ่านแอพ Facebook เหมือนกัน ถ้าอ่านมาถึงตรงนี้ทุกคนคงเห็นแล้วว่า Facebook นี่แหละคือแหล่งกระจายข้อมูลผิดๆที่ใหญ่ที่สุดในโลกตอนนี้เลย

ขอบคุณทุกคนที่อ่านบทความนี้จนจบ ต่อไปอย่าเชื่อข้อมูลอะไรทั้งนั้นถ้าคุณยังไม่ได้ justify มันดีพอ เพราะประโยคที่ว่า data never lies … is just another BIG LIE. 

9 thoughts on “Data Never Lies?

  1. ขอบคุณมากสำหรับบทความดีๆอันนี้ครับ ผมจะเอาใจช่วยนะครับ สู้ๆครับ

    Like

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.