科技

OpenAI 發佈 HealthBench GPT-4.1 與 o3 模型醫療表現超越醫生

流動日報
更新於 2025年05月30日23:23 • 發布於 2025年05月14日10:43 • NewMobileLife

OpenAI 宣佈推出全新醫療人工智能評測基準HealthBench,不僅涵蓋 49 種語言與 26 項專科,更在測試中顯示最新 GPT-4.1 與 o3 模型整體表現已優於醫生,顯示 AI 在醫療語言處理上的快速進展與潛力。

更貼近臨床實境的測試標準

廣告(請繼續閱讀本文)

過去的醫療評測工具常因缺乏醫學專家參與或場景設計過於簡化,難以真實反映臨床需求。為解決這些問題,OpenAI 與來自 60 國、共 262 位醫生合作,設計出 5,000 筆貼近真實情境的醫病對話範例,涵蓋從急診醫學到全球健康等七大領域。HealthBench 並提供多達 48,000 個以醫學為基礎的評估點,從溝通品質、指令遵循、正確性、情境理解到完整性五大面向進行評分。

GPT-4.1 評分與醫生判斷一致性高

HealthBench 的評分由 GPT-4.1 模型執行。為確認可靠性,OpenAI 將 GPT-4.1 的判斷與真實醫生評估結果比對,結果顯示模型與醫生間的評分一致性已達到與醫生彼此間相當的水平,代表模型在理解與回應醫療語境上的表現已相當成熟。

廣告(請繼續閱讀本文)

GPT-4.1 與 o3 表現超越醫生

早期測試中,醫生能顯著改善舊版模型輸出內容,然而到 2025 年 4 月,GPT-4.1 與 o3 模型在未經任何修正的情況下,表現已全面超越醫生。GPT-4.1 在測試中得分為 0.60,遠高於 2024 年 8 月 GPT-4o 的 0.32。其他競爭模型中,xAI 的 Grok 3 得分為 0.54,Google 的 Gemini 2.5 則為 0.52,僅有少數能與 OpenAI 模型接近。

關鍵在最差表現與效率

廣告(請繼續閱讀本文)

在醫療領域,一個錯誤回應可能造成嚴重後果。HealthBench 因此設計了壓力測試以觀察模型最差回應的品質。OpenAI 表示其最新模型在最差表現上亦有明顯進步,但仍需持續改進。此外,效率也是一大重點。新推出的 GPT-4.1 nano 不僅效能超越 GPT-4o,成本更僅為其 1/25,展現出高效能與低資源需求兼備的潛力,特別適合資源有限的醫療環境。

推動醫療 AI 研究進一步發展

為鼓勵更廣泛的研究應用,OpenAI 同步釋出兩組新資料集:HealthBench Consensus 與 HealthBench Hard。前者聚焦於經嚴格驗證的標準案例,後者則收錄 1,000 筆對現有模型構成挑戰的高難度案例,有助研究者進一步提升模型極端情境下的表現。

NewMobileLife 網站:https://www.newmobilelife.com
Facebook:https://www.facebook.com/jetsoiphone

查看原始文章

更多 科技 相關文章

WhatsApp Web 版發生全球性故障 大量 iPhone 用戶無法登入服務
流動日報
Netflix 退出華納影視收購計劃 Paramount 有望接手影視版圖
流動日報
經過35年歲月後復刻版遊戲《城市獵人》正式發售!同時推出附帶豪華特典的實體限定版
Saiga NAK
Apple Studio Display 2 螢幕升級 傳支援 ProMotion 與 Thunderbolt 5
流動日報
搭載NVIDIA G-SYNC Pulsar的電競螢幕「ROG Strix Pulsar XG27AQNGV」於4月17日發售!
Saiga NAK
「惡靈古堡」中的保護傘公司竟對「CUP NOODLES杯麵」提告!?還公開了保護傘拉麵的還原食譜!
Saiga NAK
系列最新作《惡靈古堡9:安魂曲》於2月27日發售!「葛蕾絲」與「里昂」攜手對抗未知恐懼與威脅
Saiga NAK
Galaxy S26 Ultra / S26+ / S26 港版價格詳情公佈!入場價 $6,898 起、預訂享 512GB / 1TB 容量升級
Mobile Magazine
當 AI 已經開始「自己開發下一代 AI」你的工作還能撐多久?
流動日報
Razer 發佈 MagSafe 兼容筆電保護套 支援 iPhone 與 AirPods 同時充電
流動日報
OpenAI 完成 1,100 億美元融資 Amazon 與 Nvidia 聯手注資
流動日報
Galaxy S26 系列預載 Perplexity AI 港版爽玩!流暢雙向廣東話溝通、S26 Ultra 私隱螢幕速試
Mobile Magazine
電競隊伍SCARZ《第五人格》部門確定參加「Call of the Abyss Ⅸ 日本地區預選」!為爭取晉級本賽資格正式迎戰
Saiga NAK
Flexport飛協博推出自動化關稅退稅技術
PR Newswire 美通社
Tim Cook官宣Apple下周重大發布 預告這幾款產品即將登場!
am730
華為西班牙發布會推多款新品 時隔五年這款焦點產品回歸!
am730
「NOEZ FOXX」與 Zonk Hotel 簽署贊助協議!Foy 成為形像大使
Saiga NAK
Apple 發佈 Xcode 26.3 支援 Codex 與 Claude 模型
流動日報
Apple 發佈 Safari Technology Preview 238 修正錯誤並提升效能
流動日報
Supermicro 推出業界最高密度的 MicroBlade®,其搭載 AMD EPYC™ 4005 系列處理器,專為雲端、邊緣及軟件即服務工作負載而設
PR Newswire 美通社
Samsung Galaxy S26開訂|電訊商預訂優惠懶人包 $0出機/最多減$5800邊間最抵?
am730
「CAPCOM CUP 12」因選手Punk棄賽,出賽資格由選手Tokido遞補
Saiga NAK