請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

醫師也要被取代了?哈佛實證研究:AI在臨床推理測驗上已超越人類,但離接手醫療決策還很遠

數位時代

更新於 2天前 • 發布於 2天前

重點一:哈佛醫學院團隊在《Science》發表大規模實測,OpenAI 的 o1-preview 與 o1 模型在六項臨床推理任務、對照數百名醫師的成績單,整體勝出人類醫師。

重點二:在波士頓貝斯以色列女執事醫療中心的真實急診案例中,o1 模型在「初步分流」階段給出近正確診斷的比例為 67.1%,兩位內科主治醫師分別僅 55.3% 與 50.0%。

重點三:但 AI 在「不可錯過診斷」這道安全底線並未顯著勝出,加上研究只測文字、實驗用的模型版本已過時,論文同步呼籲先做臨床試驗才能談導入。

2026 年 4 月 30 日,由哈佛醫學院、波士頓貝斯以色列女執事醫療中心(Beth Israel Deaconess Medical Center, BIDMC)等機構組成的研究團隊在《Science》發表論文,把 OpenAI 的 o1 系列模型直接拉進來跟數百名醫師同台較量。

其結果顯示,在六項臨床推理任務裡,這個 AI 模型整體表現勝過人類醫師基準,也勝過上一代 GPT-4。

但這不是「AI 全面超車人類醫師」這麼簡單的故事。研究團隊在論文同步點名多項侷限,《TechCrunch》報導也引述急診醫師指出,這份研究的對照組是「內科主治醫師」而非真正在急診現場執業的醫師,因此不應過度延伸結論。

對台灣讀者來說,重點不在「AI 贏了沒」,而在於這份研究示範了什麼樣的臨床 AI 評估標準,以及距離真正進到診間還差多遠。

研究設計:六種任務、不只是教科書題目

過去多數 LLM 醫療測試的問題在哪裡?多半只測「窄定義的診斷任務」或「整理乾淨的教學病例」,而且很少有醫師基準作為對照。

研究團隊這次把六種任務一次評完,包含 NEJM 臨床病理會議(Clinicopathological Conferences, CPC)的鑑別診斷、NEJM Healer 虛擬病人課程的推理過程、Grey Matters 的處置決策、地標型診斷案例、機率推理估算,以及最受矚目的 BIDMC 急診部 76 例真實病歷。

換言之,研究設計刻意挑了一組從「教科書經典題」到「未經整理的電子病歷」都涵蓋的測試組合。研究中使用的模型主要是 o1-preview,急診部那一段則使用 o1 與 GPT-4o,並對照兩位內科主治醫師。

值得注意的是,研究團隊在分析中提到,o1-preview 在訓練截止日前後的病例表現沒有顯著差異(前 79.8%、後 73.5%,p=0.59)。這個細節回應了一個常見質疑:模型成績好是不是因為背過考古題。

急診部 76 例:差距最大的是「資訊最少」的階段

這份研究最有產業意涵的段落,是 BIDMC 急診部的實測。

研究團隊把 76 位真實急診病人的病歷,依「初步分流(triage)」、「急診醫師接手」、「住院或加護病房」三個時間點切分,分別讓 o1、GPT-4o、兩位主治醫師各自開出鑑別診斷清單,再由另外兩位主治醫師「盲評」這些診斷的品質。

兩位盲評醫師被問到診斷出自人類或 AI 時,分別有 83.6% 與 94.4% 答「分不出來」。這代表評分過程本身沒有被「我猜這是 AI」這類偏見污染。

成績如何?以下為「給出正確或非常接近的診斷」(Bond 評分 4 至 5)的標準:

  • o1 在三個時間點分別拿下 67.1%(初步分流)、72.4%(急診醫師接手)與 81.6%(住院)
  • 對照醫師 1 為:55.3%、61.8%、78.9%
  • 對照醫師 2 為:50.0%、52.6%、69.7%。

也就是說,AI 在三個階段都贏過醫師,但領先幅度在資訊最少、時間最急的初步分流階段最大;而人類醫師的資訊越完整,與AI的差距就越小。

在資訊最少、決策壓力最大的急診分診階段,o1 約有 67% 個案給出正確或非常接近的診斷,顯著優於兩位主治醫師與 GPT‑4o(*P ≤ 0.05)。進入急診醫師正式評估階段後,兩個 AI 模型(GPT‑4o 與 o1)整體表現優於人類醫師組合,但 GPT‑4o 與 o1 彼此差異未達顯著。等到病人已被收治至病房或 ICU、資訊最完整時,四者的表現都接近 80% 左右,AI 與人類之間、以及兩個 AI 彼此間差異皆標示為「ns」(not significant),代表此階段準確率已大致拉平。

NEJM 經典題:o1 把 GPT-4 甩開一截

光看 NEJM 每期刊出的 CPC 罕見病例題庫(醫學界公認的高難度推理測驗),o1-preview 把正確答案列進鑑別清單的比例是 78.3%;只看「第一順位的猜測」是 52%。跟前一代 GPT-4 同題對打的 70 題中,o1-preview 答對「精確或接近」的比例為 88.6%、GPT-4 是 72.9%,這個差距已具備統計顯著意義。

最新的 o1-preview(2024)在 NEJM CPC 個案中約有 77% 個案將正確診斷納入鑑別診斷,表現優於 GPT‑4(約 64%)與所有傳統 DDx 系統;Google 研究中的臨床醫師基準約為 34%。2012 年的多款 DDx 系統不僅平均表現較低,誤差範圍也明顯較寬,顯示早期工具在這類高難度個案上的穩定性與準確度都有限。

更關鍵的是另一道叫做 R-IDEA 的「論證過程」評分。這個評分不看醫師(或 AI)最後猜對沒有,而是看推理的過程是否完整:有沒有列出鑑別、有沒有提出佐證、有沒有規劃下一步。而在 80 個案例中拿到滿分的數量,o1-preview 是 78 題、GPT-4 是 47 題、主治醫師 28 題、住院醫師 16 題。換句話說,AI 不只是「答案猜對」,連醫師寫病歷該有的推理流程,也被評為更完整。

但這份成績單有一個轉折,而且這個轉折對病人來說意義最大

研究另外測了一道叫「不可錯過診斷」的指標,也就是「AI 有沒有漏掉那種一漏就會出人命的疾病」,例如心肌梗塞、肺栓塞、主動脈剝離這類致命診斷。而在這道安全底線上,o1-preview 並沒有顯著勝過 GPT-4,也沒贏過人類醫師

研究團隊自己在論文中坦承,這項關鍵指標的進步「並不穩定」。因此,雖然 AI 在「答對題目」的賽道上贏了,但在「不能漏掉那個致命答案」這條真正攸關性命的底線上,它還沒拉開差距。

上半部(A)在看的是「寫病歷推理的分數」(R‑IDEA),可以把它想成老師改住院醫師入院紀錄那種 0–10 分評分。o1‑preview 幾乎每一題都拿 10 分滿分;GPT‑4 大多在 7.5–10 分之間,人類主治和住院醫師的成績就分散很多,從低分到高分都有。白話講:在 NEJM Healer 這種標準化個案裡,o1 不只看得懂題目,而且會寫「教科書等級」的推理過程。下半部(B)看的不是文筆,而是安全邊界:在急診初篩時,鑑別診斷裡「不能漏掉的關鍵診斷」有幾成被列進去。o1 的中位數大概 0.9,意

AI可以取代人類醫師了?答案是「並沒有」

把這份研究讀完,最值得台灣讀者留意的,反而是研究團隊自己列出的研究限制:

  • 模型版本已過時:實驗主要使用 o1-preview,目前已被 OpenAI 的 o3 系列取代。雖然團隊預期效能會「持平或提升」,但仍需新一輪驗證。

  • 只測文字輸入:臨床醫療充滿非文字訊號,包括病人語氣、表情、影像判讀。現有研究顯示,基礎模型在非文字輸入上能力仍受限。

  • 科別偏窄:六項任務集中在內科與急診,不能外推到外科、影像醫學等需要不同技能組合的科別。

  • 急診實測只是「概念驗證」:論文明寫,急診現場決策的核心是「分流、安置與立即處置」,不是診斷準確度。這份研究最多只能說「AI 在第二意見場景有潛力」,而非「AI 可以單獨值班」。

同時急診醫師 Kristen Panthagani 也指出,這項研究比較的是 AI 與「內科主治醫師」,不是真正在急診室執業的醫師。她比喻:「LLM 大概可以贏皮膚科醫師的腦外科考試,但這沒什麼意義。」

研究團隊最後在結論裡指出:「我們的發現表明,LLM 已經超越了臨床推理的多數標竿測試,這正是必須立刻啟動前瞻性臨床試驗的原因。」

言下之意,就如研究第一作者之一、BIDMC 醫師 Adam Rodman 對《衛報》採訪時所表示,目前對 AI 診斷「沒有正式的問責框架」,病人仍希望由人類引導生死決策。

亦即 AI 看診的確在資訊缺乏的情境下可能更能鎖定問題,但人類還沒有準備好把性命交給AI。

延伸閱讀:沒被AI取代,放射科醫師為何更搶手?黃仁勳一場訪談,看懂AI時代的真正機會

資料來源:Performance of a large language model on the reasoning tasks of a physician (Science)In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors (TechCrunch)

本文初稿為AI編撰,整理.編輯/ 李先泰

延伸閱讀

OpenAI公布GPT-5.5提示詞指南!結果先行最有效、提示越短越聰明,7個寫作技巧一次看
國發會欽點「台灣新創代表隊」!創業綻放計畫百強出爐,誰能角逐千萬獎金?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

石油腦庫存狂瀉72%!高盛揭全球面臨燃料短缺危機 點名台灣首當其衝

三立新聞網
02

三星噴漲逾11%再創史高!市值衝破1兆美元 成台積電之後亞洲第二家達此規模公司

anue鉅亨網
03

50歲萬年小主管存款僅20萬,被笑「理財已太遲」…他月省1萬做這件事:10年後太太「喜極而泣」

幸福熟齡 X 今周刊
04

0050成分股重洗牌!台積電占比破6成 網一看笑了:真多拖油瓶

CTWANT
05

台灣獨創富人大利多 信託契約百年內只須繳一次遺贈稅

風傳媒
06

外資認錯! 台股暴漲逾1700點 杜金龍喊「這幾檔」還可追

TVBS
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...