請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

國際

大型語言模型竟然「輕微智能受損」?放心,AI當醫生還有點遠!

明日科學

更新於 2024年12月24日04:05 • 發布於 2024年12月24日04:00 • 高 詩豪

最近有研究發現,除了 ChatGPT 4o 之外,其他幾乎所有公開的大型語言模型(LLMs)在一項叫做蒙特婁認知評估(MoCA)的測試中表現出「輕微智能受損」的跡象!這研究讓不少擔心 AI 取代醫生的人鬆了一口氣。研究者認為,這些模型在醫療診斷上的可靠性可能受到限制,甚至會讓患者對 AI 信心不足。

AI 聰明歸聰明,但這些地方還是有點笨

研究指出,這些大型語言模型(如 ChatGPT、Claude、Gemini 等)在許多認知領域表現出色,但在 視空間技能(visuospatial skills)執行功能(executive functions) 方面存在明顯缺陷,類似於人類「輕微認知受損」(mild cognitive impairment, MCI)的症狀。

例如,讓 AI 完成一些視覺抽象的任務,比如 連線測試(按順序連線數字和字母)或 畫時鐘測試(畫出一個指示特定時間的鐘面),大部分模型表現得慘不忍睹。甚至還有模型在「記住五個單詞」這樣的簡單記憶測試中翻車了。

聰明排行榜:ChatGPT 4o 暫時奪冠

研究人員使用 MoCA 測試來評估多個 LLM 的表現。MoCA 是專門用來檢測老年人早期癡呆或認知受損的工具,滿分是 30 分,26 分以上算正常。

測試結果如下:

  • ChatGPT 4o:26 分 (合格)

  • ChatGPT 4 和 Claude:25 分 (差一點點)

  • Gemini 1.0:16 分 (直接掛科)

除了 ChatGPT 4o 勉強達標外,其他模型在視空間和執行功能測試中表現都不理想,尤其是在應對需要抽象理解和推理的任務時。

醫生們飯碗還挺穩

大型語言模型(LLMs)在蒙特婁認知評估(MoCA)測試中的表現,分數低於 26 分意味著「輕微認知受損」(MCI)。只有 ChatGPT 4o 達標(26 分),而其他模型如 ChatGPT 4、Claude 和 Gemini 系列則未能突破門檻,特別是在視空間技能和執行功能方面表現不佳。(圖/ Dayan et al)
大型語言模型(LLMs)在蒙特婁認知評估(MoCA)測試中的表現,分數低於 26 分意味著「輕微認知受損」(MCI)。只有 ChatGPT 4o 達標(26 分),而其他模型如 ChatGPT 4、Claude 和 Gemini 系列則未能突破門檻,特別是在視空間技能和執行功能方面表現不佳。(圖/ Dayan et al)

儘管過去幾年,AI 在醫學考試上大出風頭,比如:

  • ChatGPT 曾在歐洲核心心臟病學考試中擊敗心臟科醫生。

  • 在土耳其的胸外科理論考試和德國的婦產科考試中,也把專業醫生按在地上摩擦。

但這次的研究讓醫生們安心了不少:AI 雖然考試很厲害,但它們在實際情境中的可靠性還不足,特別是在需要視覺判斷和抽象思維的場景下。

科學家幽默補刀:「AI 患了認知受損?」

研究作者甚至開玩笑說,未來的神經科醫生可能需要「治療 AI 患者」,因為這些語言模型的「智能問題」真的像極了人類的輕微認知受損。

雖然這些語言模型確實很厲害,但研究提醒我們,AI 還遠不是萬能的。在醫療診斷這樣需要精確和情感理解的領域,人類醫生的地位目前看來還是無可取代。

這篇研究今天正式發表在《BMJ》(英國醫學期刊)上。

更多科學與科技新聞都可以直接上 明日科學網 http://www.tomorrowsci.com

首圖來源:Sci.News (CC BY 4.0)

圖片來源:BMJDayan et al(CC BY 4.0)

參考文獻:
Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis BMJ

延伸閱讀:
1、AI在「創意測試」中勝過人類:揭示未來創造力的新可能

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0