OpenAI o1 急診分診正確率達 67%、超車資深醫師:哈佛研究揭醫療 AI 的價值、風險與落地邊界
在醫院急診室裡,許多生死交關、分秒必爭的決策,仰賴的是人類醫師多年累積的專業與經驗。然而,頂尖權威期刊《Science》近日刊載一項由哈佛醫學院(Harvard Medical School)與貝斯以色列女執事醫學中心(Beth Israel Deaconess Medical Center)共同發表的研究成果,首度讓專為處理複雜問題而生的 OpenAI o1 推理模型(reasoning model),與資深人類醫師在真實的急診情境中展開「正面對決」。
結果顯示,o1 模型在急診診斷、分診與後續處置建議等臨床任務中,皆展現出超越人類醫師的表現。不過,這項結果傳達的並不是「AI 將取代人類醫師」的恐慌,而是開始重新定義醫療照護的核心:當 AI 能夠又快又準地處理龐雜的病歷與數據時,反而強烈凸顯人類的價值。因為在資訊不足的高壓急診場景中,醫師在監督系統、人性判斷、醫病溝通與承擔最終責任上的角色,不但沒有被演算法削弱,反而變得不可取代。
真實急診病歷壓力測試:OpenAI o1 在資訊有限的分診階段勝過醫師
為了測試 AI 在真實醫療場景中運行的能力,研究團隊以波士頓 Beth Israel Deaconess Medical Center 的急診病例進行測試。《SAN》指出,有別於過去乾淨、標準化的考題,研究人員刻意使用接近真實臨床環境、充滿「雜亂」(messy)數據的電子病歷資料,讓 AI 與兩位人類醫師都只能讀取包含生命徵象、人口統計資訊與護理師紀錄等有限的文字資訊。
在病患剛抵達急診、資訊仍相當有限的「分診階段」,OpenAI o1 展現了驚人的判斷力,做出正確或非常接近診斷的比例高達 67%,勝過兩位人類醫師的 50% 與 55%。當病患接近入院階段、具備更多病歷資訊可用時,AI 的診斷正確率進一步躍升至 81% 至 82%,而人類醫師則落在 70% 至 79%,可見 AI 的優勢在「需要快速決策、資訊又不完整」的急診分診場景中尤其明顯。
不僅如此,當被要求提供如抗生素療程或臨終照護流程等長期治療計畫時,AI 的評分高達 89%,遠勝使用傳統資源的人類醫師。在一例肺栓塞併發症惡化的真實病例中,人類醫師誤以為是抗凝血劑失效,但 AI 卻注意到病患有紅斑性狼瘡病史並推斷為肺部發炎,最終證明 AI 才是正確的。
AI 勝過醫師不等於取代醫師,真實急診仍仰賴許多非文字判斷
儘管數據亮眼,但研究作者們一致強調,這項結果絕不代表 AI 已經準備好取代急診醫師。《SAN》引述研究共同作者 Adam Rodman 的說法表示:「沒有人應該看完這項研究後就說我們不需要醫師。」
探究其原因,這項研究主要測試的是「可被文字化」的病歷資料,而非複雜的完整臨床現場。《CNET》與《The Guardian》皆點出關鍵:真實的醫院與急診工作極度仰賴視覺與聽覺線索,例如病患的外觀狀態、痛苦程度等非文字訊號,而 AI 目前仍無法完整接收與準確解讀這些現場資訊,因此 AI 在研究中的定位,更像是根據書面資料提供第二意見的臨床決策輔助工具。
哈佛醫學院助理教授 Arjun Manrai 進一步解釋:「我不認為我們的發現意味著 AI 會取代醫生,我認為這確實代表我們正在目睹一場將重塑醫學的深刻技術變革,我們現在需要對這項技術進行評估,並嚴格進行前瞻性臨床試驗。」
醫療 AI 的落地邊界與挑戰:錯誤、偏誤、責任與人性判斷
不過,要將 AI 真正導入臨床,仍有許多邊界與風險需要克服。《Forbes》提醒,AI 工具雖然進步快速,但仍可能產生「假陽性」(false positive)。以另一項胰臟癌 CT 偵測研究為例,該 AI 模型在臨床診斷前偵測胰臟癌的特異度(specificity)為 81%,代表近五分之一的病患可能被錯誤判定為陽性,這將導致不必要的後續侵入性檢查、病患焦慮與額外的醫療成本。《Forbes》同時指出,AI 訓練資料本身可能存在偏誤,若資料未充分涵蓋不同族群,其診斷與治療建議恐將加深醫療不平等。
技術之外,制度面的配套同樣迫切。《The Guardian》提到,醫師對 AI 最大的擔憂在於「錯誤」與「責任歸屬」風險,而目前醫療界仍缺乏正式的問責框架。另一方面,AI 輔助醫療是否安全、公平且具成本效益,並不是本次研究的測試範圍,因此需要監管機構、醫院與醫療提供者共同建立更嚴謹的使用規則。
《Forbes》最終點出醫療的核心本質:醫療不只是辨識模式、做出診斷或提出治療,還包含理解病患的恐懼、家庭、財務、文化信念與個別臨床情境。這種奠基於人與人連結的「人性判斷」,是演算法無法計算的部分。
因此,這項哈佛研究清晰劃定醫療 AI 的能力邊界:AI 已能在特定的急診診斷與臨床推理任務中勝過人類醫師,但依然無法完整取代醫師在真實醫療現場中的觀察、溝通、判斷與責任承擔。未來,醫療 AI 的發展關鍵,在於醫師、病患與 AI 共同參與的「三方照護模式」(triadic care model),讓醫師能透過 AI 高效處理龐雜的醫療數據,進一步釋放更多心力,專注在無可取代的醫病關係與最終決策。
*本文開放合作夥伴轉載,資料來源:《Science》、《The Guardian》、《SAN》、《Forbes》、《CNET》,首圖來源:AI 工具生成。