OpenAI o1 急診分診正確率達 67%、超車資深醫師：哈佛研究揭醫療 AI 的價值、風險與落地邊界

在醫院急診室裡，許多生死交關、分秒必爭的決策，仰賴的是人類醫師多年累積的專業與經驗。然而，頂尖權威期刊《Science》近日刊載一項由哈佛醫學院（Harvard Medical School）與貝斯以色列女執事醫學中心（Beth Israel Deaconess Medical Center）共同發表的研究成果，首度讓專為處理複雜問題而生的 OpenAI o1 推理模型（reasoning model），與資深人類醫師在真實的急診情境中展開「正面對決」。

結果顯示，o1 模型在急診診斷、分診與後續處置建議等臨床任務中，皆展現出超越人類醫師的表現。不過，這項結果傳達的並不是「AI 將取代人類醫師」的恐慌，而是開始重新定義醫療照護的核心：當 AI 能夠又快又準地處理龐雜的病歷與數據時，反而強烈凸顯人類的價值。因為在資訊不足的高壓急診場景中，醫師在監督系統、人性判斷、醫病溝通與承擔最終責任上的角色，不但沒有被演算法削弱，反而變得不可取代。

真實急診病歷壓力測試：OpenAI o1 在資訊有限的分診階段勝過醫師

為了測試 AI 在真實醫療場景中運行的能力，研究團隊以波士頓 Beth Israel Deaconess Medical Center 的急診病例進行測試。《SAN》指出，有別於過去乾淨、標準化的考題，研究人員刻意使用接近真實臨床環境、充滿「雜亂」（messy）數據的電子病歷資料，讓 AI 與兩位人類醫師都只能讀取包含生命徵象、人口統計資訊與護理師紀錄等有限的文字資訊。

在病患剛抵達急診、資訊仍相當有限的「分診階段」，OpenAI o1 展現了驚人的判斷力，做出正確或非常接近診斷的比例高達 67%，勝過兩位人類醫師的 50% 與 55%。當病患接近入院階段、具備更多病歷資訊可用時，AI 的診斷正確率進一步躍升至 81% 至 82%，而人類醫師則落在 70% 至 79%，可見 AI 的優勢在「需要快速決策、資訊又不完整」的急診分診場景中尤其明顯。

不僅如此，當被要求提供如抗生素療程或臨終照護流程等長期治療計畫時，AI 的評分高達 89%，遠勝使用傳統資源的人類醫師。在一例肺栓塞併發症惡化的真實病例中，人類醫師誤以為是抗凝血劑失效，但 AI 卻注意到病患有紅斑性狼瘡病史並推斷為肺部發炎，最終證明 AI 才是正確的。

AI 勝過醫師不等於取代醫師，真實急診仍仰賴許多非文字判斷

儘管數據亮眼，但研究作者們一致強調，這項結果絕不代表 AI 已經準備好取代急診醫師。《SAN》引述研究共同作者 Adam Rodman 的說法表示：「沒有人應該看完這項研究後就說我們不需要醫師。」

探究其原因，這項研究主要測試的是「可被文字化」的病歷資料，而非複雜的完整臨床現場。《CNET》與《The Guardian》皆點出關鍵：真實的醫院與急診工作極度仰賴視覺與聽覺線索，例如病患的外觀狀態、痛苦程度等非文字訊號，而 AI 目前仍無法完整接收與準確解讀這些現場資訊，因此 AI 在研究中的定位，更像是根據書面資料提供第二意見的臨床決策輔助工具。

哈佛醫學院助理教授 Arjun Manrai 進一步解釋：「我不認為我們的發現意味著 AI 會取代醫生，我認為這確實代表我們正在目睹一場將重塑醫學的深刻技術變革，我們現在需要對這項技術進行評估，並嚴格進行前瞻性臨床試驗。」

醫療 AI 的落地邊界與挑戰：錯誤、偏誤、責任與人性判斷

不過，要將 AI 真正導入臨床，仍有許多邊界與風險需要克服。《Forbes》提醒，AI 工具雖然進步快速，但仍可能產生「假陽性」（false positive）。以另一項胰臟癌 CT 偵測研究為例，該 AI 模型在臨床診斷前偵測胰臟癌的特異度（specificity）為 81%，代表近五分之一的病患可能被錯誤判定為陽性，這將導致不必要的後續侵入性檢查、病患焦慮與額外的醫療成本。《Forbes》同時指出，AI 訓練資料本身可能存在偏誤，若資料未充分涵蓋不同族群，其診斷與治療建議恐將加深醫療不平等。

技術之外，制度面的配套同樣迫切。《The Guardian》提到，醫師對 AI 最大的擔憂在於「錯誤」與「責任歸屬」風險，而目前醫療界仍缺乏正式的問責框架。另一方面，AI 輔助醫療是否安全、公平且具成本效益，並不是本次研究的測試範圍，因此需要監管機構、醫院與醫療提供者共同建立更嚴謹的使用規則。

《Forbes》最終點出醫療的核心本質：醫療不只是辨識模式、做出診斷或提出治療，還包含理解病患的恐懼、家庭、財務、文化信念與個別臨床情境。這種奠基於人與人連結的「人性判斷」，是演算法無法計算的部分。

因此，這項哈佛研究清晰劃定醫療 AI 的能力邊界：AI 已能在特定的急診診斷與臨床推理任務中勝過人類醫師，但依然無法完整取代醫師在真實醫療現場中的觀察、溝通、判斷與責任承擔。未來，醫療 AI 的發展關鍵，在於醫師、病患與 AI 共同參與的「三方照護模式」（triadic care model），讓醫師能透過 AI 高效處理龐雜的醫療數據，進一步釋放更多心力，專注在無可取代的醫病關係與最終決策。

＊本文開放合作夥伴轉載，資料來源：《Science》、《The Guardian》、《SAN》、《Forbes》、《CNET》，首圖來源：AI 工具生成。

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

真實急診病歷壓力測試：OpenAI o1 在資訊有限的分診階段勝過醫師

AI 勝過醫師不等於取代醫師，真實急診仍仰賴許多非文字判斷

醫療 AI 的落地邊界與挑戰：錯誤、偏誤、責任與人性判斷

更多理財相關文章

老牌紡織巨頭中福國際停牌黃家「陽明山百坪豪宅」流入法拍市場

蘋果畫大餅被抓包　認栽賠80億天價和解！Apple這款iPhone每部都得賠

主動式遭大屠殺！外資狂砍「ETF人氣王」逾20萬張　專家曝股價衝擊：小蛋糕一塊

勞保級距調整終於要動了？洪申翰揭兩個月後給方向

台股史上最大尾「聯發科被關」　彭金隆：很多制度需要檢討

全民慶通車2／淡海建設利多不只「地標橋」　塞車能解？居民憂：新塞沙崙路

請更新您的瀏覽器啟用Javascript

OpenAI o1 急診分診正確率達 67%、超車資深醫師：哈佛研究揭醫療 AI 的價值、風險與落地邊界

TechOrange 科技報橘

真實急診病歷壓力測試：OpenAI o1 在資訊有限的分診階段勝過醫師

AI 勝過醫師不等於取代醫師，真實急診仍仰賴許多非文字判斷

醫療 AI 的落地邊界與挑戰：錯誤、偏誤、責任與人性判斷

更多理財相關文章

老牌紡織巨頭中福國際停牌 黃家「陽明山百坪豪宅」流入法拍市場

蘋果畫大餅被抓包 認栽賠80億天價和解！Apple這款iPhone每部都得賠

主動式遭大屠殺！外資狂砍「ETF人氣王」逾20萬張 專家曝股價衝擊：小蛋糕一塊

勞保級距調整終於要動了？洪申翰揭兩個月後給方向

台股史上最大尾「聯發科被關」 彭金隆：很多制度需要檢討

全民慶通車2／淡海建設利多不只「地標橋」 塞車能解？居民憂：新塞沙崙路

請更新您的瀏覽器

老牌紡織巨頭中福國際停牌黃家「陽明山百坪豪宅」流入法拍市場

蘋果畫大餅被抓包　認栽賠80億天價和解！Apple這款iPhone每部都得賠

主動式遭大屠殺！外資狂砍「ETF人氣王」逾20萬張　專家曝股價衝擊：小蛋糕一塊

台股史上最大尾「聯發科被關」　彭金隆：很多制度需要檢討

全民慶通車2／淡海建設利多不只「地標橋」　塞車能解？居民憂：新塞沙崙路