請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

國際

大型語言模型竟然「輕微智能受損」?放心,AI當醫生還有點遠!

明日科學

更新於 2024年12月24日04:05 • 發布於 2024年12月24日04:00 • 高 詩豪

最近有研究發現,除了 ChatGPT 4o 之外,其他幾乎所有公開的大型語言模型(LLMs)在一項叫做蒙特婁認知評估(MoCA)的測試中表現出「輕微智能受損」的跡象!這研究讓不少擔心 AI 取代醫生的人鬆了一口氣。研究者認為,這些模型在醫療診斷上的可靠性可能受到限制,甚至會讓患者對 AI 信心不足。

AI 聰明歸聰明,但這些地方還是有點笨

研究指出,這些大型語言模型(如 ChatGPT、Claude、Gemini 等)在許多認知領域表現出色,但在 視空間技能(visuospatial skills)執行功能(executive functions) 方面存在明顯缺陷,類似於人類「輕微認知受損」(mild cognitive impairment, MCI)的症狀。

例如,讓 AI 完成一些視覺抽象的任務,比如 連線測試(按順序連線數字和字母)或 畫時鐘測試(畫出一個指示特定時間的鐘面),大部分模型表現得慘不忍睹。甚至還有模型在「記住五個單詞」這樣的簡單記憶測試中翻車了。

聰明排行榜:ChatGPT 4o 暫時奪冠

研究人員使用 MoCA 測試來評估多個 LLM 的表現。MoCA 是專門用來檢測老年人早期癡呆或認知受損的工具,滿分是 30 分,26 分以上算正常。

測試結果如下:

  • ChatGPT 4o:26 分 (合格)

  • ChatGPT 4 和 Claude:25 分 (差一點點)

  • Gemini 1.0:16 分 (直接掛科)

除了 ChatGPT 4o 勉強達標外,其他模型在視空間和執行功能測試中表現都不理想,尤其是在應對需要抽象理解和推理的任務時。

醫生們飯碗還挺穩

大型語言模型(LLMs)在蒙特婁認知評估(MoCA)測試中的表現,分數低於 26 分意味著「輕微認知受損」(MCI)。只有 ChatGPT 4o 達標(26 分),而其他模型如 ChatGPT 4、Claude 和 Gemini 系列則未能突破門檻,特別是在視空間技能和執行功能方面表現不佳。(圖/ Dayan et al)

儘管過去幾年,AI 在醫學考試上大出風頭,比如:

  • ChatGPT 曾在歐洲核心心臟病學考試中擊敗心臟科醫生。

  • 在土耳其的胸外科理論考試和德國的婦產科考試中,也把專業醫生按在地上摩擦。

但這次的研究讓醫生們安心了不少:AI 雖然考試很厲害,但它們在實際情境中的可靠性還不足,特別是在需要視覺判斷和抽象思維的場景下。

科學家幽默補刀:「AI 患了認知受損?」

研究作者甚至開玩笑說,未來的神經科醫生可能需要「治療 AI 患者」,因為這些語言模型的「智能問題」真的像極了人類的輕微認知受損。

雖然這些語言模型確實很厲害,但研究提醒我們,AI 還遠不是萬能的。在醫療診斷這樣需要精確和情感理解的領域,人類醫生的地位目前看來還是無可取代。

這篇研究今天正式發表在《BMJ》(英國醫學期刊)上。

更多科學與科技新聞都可以直接上 明日科學網 http://www.tomorrowsci.com

首圖來源:Sci.News (CC BY 4.0)

圖片來源:BMJDayan et al(CC BY 4.0)

參考文獻:
Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis BMJ

延伸閱讀:
1、AI在「創意測試」中勝過人類:揭示未來創造力的新可能

查看原始文章

更多國際相關文章

01

走私10萬筆孕婦血! 海外偷測大陸胎兒性別

TVBS
02

「抱歉我是文科生」高壓環境逼走韓男 逃日本一舉逆轉:經歷全成加分項

太報
03

沒名牌穿了!霸王餐台女網美「囚服出庭」 狂打斷法官遭斥:不准說話

CTWANT
04

繼日本高市政府後 又有「這3國」介入台海事務! 中方生氣了.....

新頭殼
05

噁爆!中國妹子就地拿餐廳垃圾桶「烙賽」拉屎 旁邊吃麵男超尷尬

鏡報
06

23歲男稱「不想活」!9分鐘殺害2人悠閒唱歌 竟辯有精神疾病

鏡報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...