大型語言模型竟然「輕微智能受損」？放心，AI當醫生還有點遠！

最近有研究發現，除了 ChatGPT 4o 之外，其他幾乎所有公開的大型語言模型（LLMs）在一項叫做蒙特婁認知評估（MoCA）的測試中表現出「輕微智能受損」的跡象！這研究讓不少擔心 AI 取代醫生的人鬆了一口氣。研究者認為，這些模型在醫療診斷上的可靠性可能受到限制，甚至會讓患者對 AI 信心不足。

AI 聰明歸聰明，但這些地方還是有點笨

研究指出，這些大型語言模型（如 ChatGPT、Claude、Gemini 等）在許多認知領域表現出色，但在 視空間技能（visuospatial skills） 和 執行功能（executive functions） 方面存在明顯缺陷，類似於人類「輕微認知受損」（mild cognitive impairment, MCI）的症狀。

例如，讓 AI 完成一些視覺抽象的任務，比如 連線測試（按順序連線數字和字母）或 畫時鐘測試（畫出一個指示特定時間的鐘面），大部分模型表現得慘不忍睹。甚至還有模型在「記住五個單詞」這樣的簡單記憶測試中翻車了。

聰明排行榜：ChatGPT 4o 暫時奪冠

研究人員使用 MoCA 測試來評估多個 LLM 的表現。MoCA 是專門用來檢測老年人早期癡呆或認知受損的工具，滿分是 30 分，26 分以上算正常。

測試結果如下：

ChatGPT 4o：26 分 （合格）
ChatGPT 4 和 Claude：25 分 （差一點點）
Gemini 1.0：16 分 （直接掛科）

除了 ChatGPT 4o 勉強達標外，其他模型在視空間和執行功能測試中表現都不理想，尤其是在應對需要抽象理解和推理的任務時。

醫生們飯碗還挺穩的

大型語言模型（LLMs）在蒙特婁認知評估（MoCA）測試中的表現，分數低於 26 分意味著「輕微認知受損」（MCI）。只有 ChatGPT 4o 達標（26 分），而其他模型如 ChatGPT 4、Claude 和 Gemini 系列則未能突破門檻，特別是在視空間技能和執行功能方面表現不佳。（圖／ Dayan et al）

儘管過去幾年，AI 在醫學考試上大出風頭，比如：

ChatGPT 曾在歐洲核心心臟病學考試中擊敗心臟科醫生。
在土耳其的胸外科理論考試和德國的婦產科考試中，也把專業醫生按在地上摩擦。

但這次的研究讓醫生們安心了不少：AI 雖然考試很厲害，但它們在實際情境中的可靠性還不足，特別是在需要視覺判斷和抽象思維的場景下。

科學家幽默補刀：「AI 患了認知受損？」

研究作者甚至開玩笑說，未來的神經科醫生可能需要「治療 AI 患者」，因為這些語言模型的「智能問題」真的像極了人類的輕微認知受損。

雖然這些語言模型確實很厲害，但研究提醒我們，AI 還遠不是萬能的。在醫療診斷這樣需要精確和情感理解的領域，人類醫生的地位目前看來還是無可取代。

這篇研究今天正式發表在《BMJ》（英國醫學期刊）上。

更多科學與科技新聞都可以直接上明日科學網 http://www.tomorrowsci.com

首圖來源：Sci.News (CC BY 4.0)

圖片來源：BMJDayan et al(CC BY 4.0)

參考文獻：
Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis BMJ

延伸閱讀：
1、AI在「創意測試」中勝過人類：揭示未來創造力的新可能

請更新您的瀏覽器

國際

明日科學

AI 聰明歸聰明，但這些地方還是有點笨

聰明排行榜：ChatGPT 4o 暫時奪冠

醫生們飯碗還挺穩的

科學家幽默補刀：「AI 患了認知受損？」