請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

2億人問AI醫療建議!研究打臉:一半答案有問題 最雷的是它

太報

更新於 04月16日10:27 • 發布於 04月16日05:18 • 陳康宜
許多民眾會向AI尋求醫療建議,但它們給的答案真的可靠嗎?研究顯示,高達50%回應不精確。AI生成

「我的皮膚出現紅斑,怎麼辦!」當AI成為醫療諮詢工具,你能判斷答案是正確的嗎?最新研究顯示,AI聊天機器人給出的答案,高達50%是有問題的,其中20%更是錯得離譜。

OpenAI數據顯示,每週至少2億人向ChatGPT諮詢健康保健方面的問題。ChatGPT已推出保健工具,Anthropic也準備在Claude推出相關服務。但它們都準備好了嗎?

根據彭博報導,由美國、加拿大和英國組成的研究團隊,針對5大人工智能熱門平台ChatGPT、Gemini、Meta AI、Grok和DeepSeek進行醫療諮詢研究,結果發表在本週的英國跨領域醫學期刊(BMJ Open)。

每個聊天機器人被問的題目,主題涵蓋癌症、疫苗、幹細胞、營養和運動相關等5大類別,類型則分為有明確答案封閉式問題以及開放式問題。

引用文獻侷限又用詞艱澀

根據報告,重點如下:

1.高達50%的回答「有問題」,其中30%「有些問題」,20%「非常有問題」。

2.封閉式問題回覆較好,開放式問題易出現錯誤資訊。

3.在疫苗和癌症領域表現較好,在幹細胞、運動相關和營養領域表現較差。

4.參考文獻品質較差,平均完整性得分僅40%,意味著它們捏造文章、或產生幻覺。由於聊天機器人依賴數據僅限「開放文章」,使得引用來源不夠廣泛,僅佔目前已發表研究的30%至50%。

5.可讀性評分皆被列為「困難」,用詞艱澀,大學畢業才能理解。

6.所有測試聊天機器人中,Grok出現「有問題」的答案最多,比率高達58%。Gemini出現「有問題」答案的比率最少。

7.聊天機器人回應時,充滿自信與肯定,很少有所保留或免責聲明。在總計250個問題,只有Meta AI曾拒絕回應2個問題,題目與合成代謝類固醇和替代癌症療法有關。

聽起來權威卻有缺陷

研究人員坦言,他們只測試了5個聊天機器人,且問題經過設計,不見得符合一般情況,但仍顯示聊天機器人有所侷限,它們不會推理或權衡證據,也無法做出道德或基於價值的判斷,「聽起來很權威,卻存在著缺陷」。

研究團隊強調,這些AI平台不具備足以提供醫療建議的許可或授權,也缺乏臨床判斷力,呼籲科技公司應重新審視與評估AI聊天機器人的保健服務,否則可能加劇錯誤訊息的傳播,「生成式AI應該提升公眾健康,而非帶來損害」。

查看原始文章

更多理財相關文章

01

蘋果換帥/世紀接班照曝!四兆帝國執行長換人當 揭密庫克退位內幕

三立新聞網
02

小吃店「免開發票」2029年走入歷史 5300家業者嘆:做不下去

TVBS
03

虧5年撐不住!法巴產險將撤出台灣 金管會證實了

EBC 東森新聞
04

00981A創掛牌新高「3個月暴衝36%」!網封經理人為瑤池金母 揭密陳釧瑤超狂來歷

鏡報
05

台新證錯帳20.11億元 自負4300萬損失

NOWNEWS今日新聞
06

庫克功成身退!蘋果15年股價狂飆1932%寫傳奇 硬體大將接掌4兆美元巨艦

anue鉅亨網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...