2億人問AI醫療建議！研究打臉：一半答案有問題　最雷的是它

許多民眾會向AI尋求醫療建議，但它們給的答案真的可靠嗎？研究顯示，高達50%回應不精確。AI生成

「我的皮膚出現紅斑，怎麼辦！」當AI成為醫療諮詢工具，你能判斷答案是正確的嗎？最新研究顯示，AI聊天機器人給出的答案，高達50%是有問題的，其中20%更是錯得離譜。

OpenAI數據顯示，每週至少2億人向ChatGPT諮詢健康保健方面的問題。ChatGPT已推出保健工具，Anthropic也準備在Claude推出相關服務。但它們都準備好了嗎？

根據彭博報導，由美國、加拿大和英國組成的研究團隊，針對5大人工智能熱門平台ChatGPT、Gemini、Meta AI、Grok和DeepSeek進行醫療諮詢研究，結果發表在本週的英國跨領域醫學期刊（BMJ Open）。

每個聊天機器人被問的題目，主題涵蓋癌症、疫苗、幹細胞、營養和運動相關等5大類別，類型則分為有明確答案封閉式問題以及開放式問題。

引用文獻侷限又用詞艱澀

根據報告，重點如下：

1.高達50%的回答「有問題」，其中30%「有些問題」，20%「非常有問題」。

2.封閉式問題回覆較好，開放式問題易出現錯誤資訊。

3.在疫苗和癌症領域表現較好，在幹細胞、運動相關和營養領域表現較差。

4.參考文獻品質較差，平均完整性得分僅40%，意味著它們捏造文章、或產生幻覺。由於聊天機器人依賴數據僅限「開放文章」，使得引用來源不夠廣泛，僅佔目前已發表研究的30%至50%。

5.可讀性評分皆被列為「困難」，用詞艱澀，大學畢業才能理解。

6.所有測試聊天機器人中，Grok出現「有問題」的答案最多，比率高達58%。Gemini出現「有問題」答案的比率最少。

7.聊天機器人回應時，充滿自信與肯定，很少有所保留或免責聲明。在總計250個問題，只有Meta AI曾拒絕回應2個問題，題目與合成代謝類固醇和替代癌症療法有關。

聽起來權威卻有缺陷

研究人員坦言，他們只測試了5個聊天機器人，且問題經過設計，不見得符合一般情況，但仍顯示聊天機器人有所侷限，它們不會推理或權衡證據，也無法做出道德或基於價值的判斷，「聽起來很權威，卻存在著缺陷」。

研究團隊強調，這些AI平台不具備足以提供醫療建議的許可或授權，也缺乏臨床判斷力，呼籲科技公司應重新審視與評估AI聊天機器人的保健服務，否則可能加劇錯誤訊息的傳播，「生成式AI應該提升公眾健康，而非帶來損害」。

理財