只要進入好大學,未來的收入就會提高?讓孩子看電視,會降低他們的學習力?定期接受健康檢查,就會變長壽?如果以上問題,你的答案都為「是」,就是混淆了「因果關係」與「相關關係」。
根據《用數字做決策的思考術》的解釋,「因果性」是在兩件事項之中,一件事為原因,另一件是結果的狀態;「相關性」是指,兩個變數之間具有某種規則和共變性。比如說,當氣溫變高,啤酒的銷售額也會提升;氣溫變低,啤酒銷售量會下滑,就表示,「氣溫」和「啤酒的銷售額」相關。
回到開頭的例子,定期健康檢查和長壽的關係不是因果,而是常做健康檢查的人,注重身體健康,所以容易長壽;也不是進入好大學就能提高收入(因果),而是考入好大學代表學生有一定潛能,更容易出人頭地(相關)。好大學、健康檢查不是原因,本身注意健康、學生能力好才是。
看似相關或因果的事件,可能只是巧合
這表示我們應該用更嚴謹的態度檢視兩件事的關係。《統計的藝術》提及,當我們說 X 導致 Y 時,並不表示每當 X 發生,Y 也會發生;或者,只有在 X 發生時,Y 才會發生。更多情況是,每當 X 發生時,Y「近乎每次」都會發生,這也提醒我們,判斷因果要更審慎。
在某些情況下,我們很容易將相關性誤認為因果關係:
1. 巧合: 《一眼就突破盲點的思考力》中有一個有趣的例子,「電影明星尼可拉斯.凱吉(Nicolas Cage)每年演出的電影數量」和「該年掉入游池溺斃的人數」高度一致,所以凱吉演出愈多部電影,愈多人溺斃嗎(因果)?當然不是,一切只是巧合。哈佛大學甚至做了研究,還出書證明凱吉和溺斃沒關係,可知巧合多容易被誤認為因果或相關。
2. 反向因果關係(reverse causality): 就是 X 發生在 Y 之後,便以為 Y 導致 X,但其實是 X 導致 Y。比如每天早上刷完牙才去上班,難道是「刷牙」導致了「上班」?不,甚至有些人是因為要出門上班才刷牙。
3. 第三變數: 指 X 和 Y 兩件事同時發生,以為是 X 導致 Y 或 Y 導致 X,其實存在另一個變數 Z,是 Z 導致 X 和 Y。舉例來說,冰淇淋的銷售量會隨著穿著短褲的人數增加而增加。不是「愈多人穿短褲」導致「愈多人買冰淇淋」,而是兩者發生的共同原因是「夏天氣溫較高」。
如果混淆了因果和相關,比方廣告預算愈多,銷售額愈高,容易導致錯誤的商業決策。所以,較嚴謹的做法是進行隨機對照實驗(RCT,randomized controlled trial),或者稱 A/B 測試(A/B testing),就是把受試者「隨機」分為兩組,兩組只有一變數不同,如果導致不同結果,便可以稱該變數導致某結果,或變數和結果有因果關係。
利用 A/B 測試,確認因果關係
前美國總統巴拉克.歐巴馬(Barack Obama)的競選團隊,便是利用 RCT 測試哪一種首頁的註冊率最高。結果相比原本想選擇的「影片」和「望向遠方的獨照」,「歐巴馬全家福」(果)的註冊人數多了 288 萬,並多募得 6000 萬美元的政治獻金。
如果環境不允許,或是沒有資源做隨機對照實驗,《數據分析的力量》建議用「自然實驗(natural experience)」替代,就是進行一系列假設、驗證,釐清因果關係。
舉例來說,想知道改變自付額,對醫療服務的使用頻率的影響。可以先假設「如果自付額會影響醫療服務的利用,70 歲以上的人,應該會比 70 歲以下的人,更常使用」,因為日本法令規範,70 歲開始,自付額由 3 成降為 1 成。查詢公開資料後發現,隨著年紀愈大,醫療服務的使用者也愈多。但到了 70 歲,原本緩慢上升的曲線突然大跳躍!這個「斷層」代表有變數發生,而 69~70 歲比較普遍的改變,就是自付額的高低。自付額和醫療服務的使用頻率有因果關係,得證。
延伸閱讀
這組對比數字的發現,大幅提升戰地醫療水準!活用 2 步驟,讓數據幫你做出好決策
所有難題,不只有一種解法!培養「多模型思維」,決策更靈活、縝密
留言 0