最近有研究發現,除了 ChatGPT 4o 之外,其他幾乎所有公開的大型語言模型(LLMs)在一項叫做蒙特婁認知評估(MoCA)的測試中表現出「輕微智能受損」的跡象!這研究讓不少擔心 AI 取代醫生的人鬆了一口氣。研究者認為,這些模型在醫療診斷上的可靠性可能受到限制,甚至會讓患者對 AI 信心不足。
AI 聰明歸聰明,但這些地方還是有點笨
研究指出,這些大型語言模型(如 ChatGPT、Claude、Gemini 等)在許多認知領域表現出色,但在 視空間技能(visuospatial skills) 和 執行功能(executive functions) 方面存在明顯缺陷,類似於人類「輕微認知受損」(mild cognitive impairment, MCI)的症狀。
例如,讓 AI 完成一些視覺抽象的任務,比如 連線測試(按順序連線數字和字母)或 畫時鐘測試(畫出一個指示特定時間的鐘面),大部分模型表現得慘不忍睹。甚至還有模型在「記住五個單詞」這樣的簡單記憶測試中翻車了。
聰明排行榜:ChatGPT 4o 暫時奪冠
研究人員使用 MoCA 測試來評估多個 LLM 的表現。MoCA 是專門用來檢測老年人早期癡呆或認知受損的工具,滿分是 30 分,26 分以上算正常。
測試結果如下:
ChatGPT 4o:26 分 (合格)
ChatGPT 4 和 Claude:25 分 (差一點點)
Gemini 1.0:16 分 (直接掛科)
除了 ChatGPT 4o 勉強達標外,其他模型在視空間和執行功能測試中表現都不理想,尤其是在應對需要抽象理解和推理的任務時。
醫生們飯碗還挺穩的
儘管過去幾年,AI 在醫學考試上大出風頭,比如:
ChatGPT 曾在歐洲核心心臟病學考試中擊敗心臟科醫生。
在土耳其的胸外科理論考試和德國的婦產科考試中,也把專業醫生按在地上摩擦。
但這次的研究讓醫生們安心了不少:AI 雖然考試很厲害,但它們在實際情境中的可靠性還不足,特別是在需要視覺判斷和抽象思維的場景下。
科學家幽默補刀:「AI 患了認知受損?」
研究作者甚至開玩笑說,未來的神經科醫生可能需要「治療 AI 患者」,因為這些語言模型的「智能問題」真的像極了人類的輕微認知受損。
雖然這些語言模型確實很厲害,但研究提醒我們,AI 還遠不是萬能的。在醫療診斷這樣需要精確和情感理解的領域,人類醫生的地位目前看來還是無可取代。
這篇研究今天正式發表在《BMJ》(英國醫學期刊)上。
更多科學與科技新聞都可以直接上 明日科學網 http://www.tomorrowsci.com
圖片來源:BMJDayan et al(CC BY 4.0)
參考文獻:
Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis BMJ
延伸閱讀:
1、AI在「創意測試」中勝過人類:揭示未來創造力的新可能