找 AI 看診到底行不行？牛津大學：和搜尋引擎準確度差不多

最新研究顯示，AI 聊天機器人醫療建議表現與傳統搜尋引擎相當，卻未改善用戶健康度。

研究由牛津網路研究所與牛津大學納菲爾德基層健康科學系的學者，與 MLCommons 及其他機構合作，近 1,300 名英國參與者，測試十個專家設計的醫療情境，參與者隨機分成兩組，一組用大型語言模型（LLMs）如 GPT-4o、Llama 3 和 Command R+，另一組為個人常用診斷方法，大部分為網路搜尋或個人知識。

結果顯示，使用 LLM 參與者的評估健康狀況和建議行動表現，與用搜尋引擎的參與者相當，成功率僅 33%~45%。儘管 LLM 理論上結構化問題有 94.9% 準確率，但實際互動時因人類與 AI 溝通不良，導致表現差距頗大。用戶經常忽略關鍵細節、誤解聊天機器人意思或忽視建議。

共同作者之一、牛津網路研究所副教授 Luc Rocher 表示，儘管 AI 不斷突破，但要保證將來模型能平衡用戶的慰藉需求與公共衛生系統的有限，仍是個挑戰。越來越多人依賴聊天機器人給予醫療建議，大眾可能會將錯誤但看似合理的診斷導入已吃緊的醫療體系。

研究者強調，AI 聊天機器人尚未準備好在現實世界當醫生，呼籲開發者和監管機構部署 LLM 照護病患前，必須實際評估用戶。

（首圖來源：AI 生成）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

豪宅買氣慘2／北市30坪即為豪宅？沒千萬現金別想換房　大坪數成「票房毒藥」

漂流木變小提琴2／晚上7點後只剩便利店最亮！竹科工程師返鄉想振興小鎮　下場是天天茫到不敢再出門

不只台積電！外媒點名2檔個股：買了10年後會感謝自己

豪宅買氣慘1／「哥吉拉」甦醒半價搶市咬冠軍　億元豪宅交易卻大減4成

短線逆風臺銀：金價長多未扭轉

台股西進首度倒退嚕》中國學徒複製台灣經驗台塑寧波、台聚古雷淪錢坑

請更新您的瀏覽器啟用Javascript

找 AI 看診到底行不行？牛津大學：和搜尋引擎準確度差不多

科技新報

更多理財相關文章

豪宅買氣慘2／北市30坪即為豪宅？沒千萬現金別想換房 大坪數成「票房毒藥」

漂流木變小提琴2／晚上7點後只剩便利店最亮！竹科工程師返鄉想振興小鎮 下場是天天茫到不敢再出門