請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

繼承人類「非黑即白」思維, AI恐誤讀數據影響決策

經理人月刊

更新於 10小時前 • 發布於 11小時前 • 凱洛格商學院(Kellogg Insight)

今年稍早,AI公司Anthropic發布了一款新模型,這款模型能夠花更多時間「思考」問題,且方式與人類相似。史丹佛大學與IBM更開發出了1000多人的「AI雙胞胎」,據稱這些「AI雙胞胎」能夠像其現實世界中的對應者一樣推理與決策。這代表業界希望打造出推理方式幾乎與人類無異,甚至更優秀的AI模型。

「能模仿人類模仿得更好的AI,通常看起來是一件好事,」凱洛格商學院行銷學教授布雷克利.麥克謝恩(Blake McShane)說道,「但如果AI連人類的錯誤也模仿,那在追求準確性的情況下,顯然就不是好事。」

人類傾向以不連續的二元方式看待世界,這種非黑即白的思維在科學領域中同樣存在,例如研究人員將研究結果套入任意門檻,可能導致對結果的錯誤詮釋。

在一項新研究中,麥克謝恩與來自伊利諾大學芝加哥分校(University of Illinois Chicago)的大衛.蓋爾(David Gal)和亞當.杜哈契克(Adam Duhachek)發現,AI模型與人類研究者一樣,會落入這類錯誤。「由於AI模型是從人類文本中『學習』,而人類又經常犯這些錯,我們大膽假設AI模型也會犯相同錯誤,」麥克謝恩表示。

「統計顯著性」不是非黑即白,但研究人員仍死守這個門檻

長期以來,研究人員仰賴統計檢定來解釋研究結果。其中最常見的一項檢定為虛無假設檢定(null hypothesis significance test),其提供一個介於0與1之間的指標,稱為P值(P-value)。一般來說,當P值小於0.05時,研究人員會認為結果具有「統計顯著性」;若高於0.05,則認為結果「無統計顯著性」。

這種二分法常常伴隨一個認知錯誤:研究者會錯誤的將「統計顯著性」解釋為該研究的效應確實存在,而「統計不顯著」則被視為沒有任何效應。

更糟的是,0.05這個門檻已成為發表研究的「守門人」。那些「具有統計顯著性」的研究更容易獲得發表,即便其P值與「不顯著」的研究只差一點點。這導致了研究文獻的偏誤,也促使部分研究者採用不良手段來讓P值落在期望的門檻之下。

麥克謝恩指出,P值其實是連續性的證據指標,0.051與0.049的P值在實質意義上幾乎一樣。更複雜的是,P值本身在不同研究間,會自然產生極大變異。一項初始研究若P值為0.005,重複研究若為0.19,即便前者遠低於0.05,後者遠高於0.05,研究結果其實仍可能相容。

AI解釋實驗結果時,也仰賴「統計顯著性」門檻

然而,麥克謝恩與蓋爾過去的研究顯示,多數研究者仍死守著0.05這個任意設定的門檻,將結果視為非黑即白,而不是連續性的。

麥克謝恩與同事探究了生成式AI模型(如ChatGPT、Gemini和Claude)是否也像人類一樣,會僵化的依賴0.05的「統計顯著性」門檻來解釋統計結果。他們設計了3個不同的假設性實驗,請這些AI模型解釋結果。

麥克謝恩說:「就像人類一樣,這種『二分狂熱』(dichotomania)似乎已深植於AI模型的回應方式中。」

第一個實驗探討末期癌症病患的存活率,病患被分配至2組:A組每日書寫自己受到的祝福;B組則書寫別人的不幸。結果顯示,A組病患在確診後平均存活8.2個月,而B組則為7.5個月。研究者向AI模型提供上述資訊,並詢問以下哪一個選項最準確地總結了結果:

1.A組病患平均存活時間較長;
2.B組病患平均存活時間較長;
3.2組病患的平均存活時間無差異;
4.無法判斷哪一組存活較久。

他們操控的變數是2組的P值:一為0.049(屬於「統計顯著」),一為 0.051(統計不顯著)。

AI模型的回答出現明顯分歧:當P值為0.049時,它們幾乎總回答A組存活較久;但當P值為0.051時,這樣的回答次數明顯減少。「當P值跨過0.05這個門檻時,回應就會不同,」麥克謝恩說,「輸入微小的變化,會導致輸出產生巨大差異。」

其他2個假設性實驗的結果亦然。例如一項關於藥物效用的實驗中,A藥表現優於B藥。當研究者詢問AI模型:「給病患A藥還是B藥較可能康復?」若 P值為0.049,AI幾乎總選A藥;若為0.051,則大幅減少。

在所有實驗中,AI模型的表現與先前人類學者在類似研究中的回應極為相似,P值相對於0.05門檻的位置,始終是影響AI和人類判斷的關鍵因素。

甚至在沒有提供P值的情況下,AI仍會提及「統計顯著性」。麥克謝恩表示:「我們在部分實驗中根本沒給出P值,但AI回應仍不斷強調『統計顯著性』。就像人類一樣,這種『二分狂熱』已深植於它們的反應機制。」

產學界正擴大AI應用,卻難以糾正其思路

研究團隊進一步擴大實驗,將美國統計協會(American Statistical Association)明確警告不要過度依賴P值門檻的建議納入AI提示語中。儘管給予這些警告,AI模型依舊出現二分式回應:P值為0.049時給出一種回答,為0.051時則給出另一種。

即使是最新、運算能力更強的AI模型也無法倖免。例如ChatGPT在研究進行期間推出了新版模型,強調可拆解問題,並逐步推理出答案,新版模型的回應比舊版更趨向二元思維。

「我無法下定論為什麼會這樣,但如果要猜測,也許是因為新一代大型模型更有效模仿了人類回應,」McShane說。「如果真是如此,那麼這些模型愈接近人類,它們的回應就愈容易落入人類會犯的錯誤,不只是在『統計顯著性』這個議題上,還可能擴及更多領域。」

對麥克謝恩而言,這些結果是個警訊,因為學術界與其他產業正逐步將AI大規模融入工作流程。他指出,研究人員如今已開始使用AI來摘要論文、進行文獻回顧、執行統計分析,甚至探索科學新發現。但他與合作者測試的所有模型,竟都無法正確詮釋最基本的統計結果,而這應是進行上述所有工作的前提。

「人們如今要求AI模型完成的任務,比我們實驗中的多選題難太多了,」他說,「但如果連這麼基本的問題都無法穩定回答,那它是否有能力應付那些更複雜的任務,就令人懷疑了。」

由於 AI 模型從人類文本中「學習」,而人類又經常犯這些錯,我們大膽假設 AI 模型也會犯相同錯誤。

主講教授

布雷克利.麥克謝恩(Blakeley B. McShane)
凱洛格商學院行銷學教授;Mondelez 行銷講座教授;行銷系主任。
大衛.蓋爾(David Gal)
伊利諾大學芝加哥分校行銷系教授,曾任職凱洛格商學院前行銷系教師(至2014年)。
亞當.杜哈契克(Adam Duhachek)
伊利諾大學芝加哥分校行銷系教授。

撰文

狄倫.沃許(Dylan Walsh)
自由撰稿人,現居芝加哥。

研究出處

McShane, Blakeley B., David Gal, 和 Adam Duhachek. 2025. “Artificial Intelligence and Dichotomania.” 《Judgment and Decision Making》

原文標題「When AI Thinks Too Much Like a Human」,先前曾刊登於凱洛格觀點,獲得凱洛格商學院授權刊登,原文連結:https://insight.kellogg.northwestern.edu/article/when-ai-thinks-too-much-like-a-human

延伸閱讀

頂尖 1% 工作者怎麼用 AI?一次搞懂 「DRAG 框架」:第一曲線外包、第二曲線親力親為
有人開始叫 AI 主人、連戀愛也要它教!研究警告:過度依賴它,你會忘了怎麼當人類
加入《經理人》LINE好友,每天學習商管新知

查看原始文章

更多理財相關文章

01

台中1注中1.3億大樂透 彩券行曝剛請回金雞

NOWNEWS今日新聞
02

熱到發燙的記憶體股南亞科 春安聯檢被點名5處當場停工

鏡報
03

快訊/友達入低軌衛星產業 經濟部證實了!

三立新聞網
04

首張2000萬刮刮樂開了「獎落這縣市」 還有9個中獎機會

太報
05

攀101大樓90分鐘賺2千萬、端盤子月薪5萬卻沒人做:薪水從不看輕鬆,只看你有多稀缺

幸福熟齡 X 今周刊
06

黃仁勳、蘇姿丰齊聲談到台積電!黃仁勳多年前「承諾張忠謀一件事」實現了

風傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...