請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

財經

熱話|Google研發醫學AI模型 準確率達美國執業試合格標準

Fortune Insight

更新於 2023年01月01日02:43 • 發布於 2022年12月31日13:55 • Fortune Insight

Google研究院和英國人工智能公司DeepMind近日發表研究成果,表示成功提升大型語言模型(LLM)在醫學專業領域上的準確率,在回答問題數據庫時超越美國醫生執業考試(USMLE)的合格標準,再經改良調整後的模型更直接媲美人類醫生水準。

雖然大型語言模型在自然語言理解和生成方面的能力卓越,但醫學和臨床應用的標準要求相當高。目前,評估一個模型的臨床知識通常依賴自動評估,但卻欠缺標準來評估跨任務範圍的模型預測和推理。

為解決這個問題,Google和DeepMind的研究團隊提出,使用Google一個5,400億參數的人工智能模型PaLM,以及經指令調整後的變體模型Flan-PaLM,在醫學問題數據庫MultiMedQA上接受評估,當中涵蓋專業醫學考試、研究和消費者查詢。

Flan-PaLM在MultiMedQA上成功實現人工智能的最佳準確率,其中在美國醫生執業考試數據庫MedQA上的準確率為67.6%,比之前最先進模型的準確率高出17%以上。而美國醫生執業考試的合格標準則為60%。

然而,評估揭示Flan-PaLM比起人類醫生仍然存在關鍵落差。 因此,團隊引入指令提示調整,利用臨床醫生的示範答案作例子訓練模型,從而產生出Med-PaLM。團隊表示,新模型的表現令人鼓舞。

Med-PaLM在科學常識方面的準確率達到92.6%,比Flan-PaLM的61.9%大幅提高,和人類醫生僅差0.3%。在理解、檢索和推理能力上,Med-PaLM都幾乎達到人類醫生的水準。而在醫學人口統計學的偏見上,Med-PaLM的性能甚至超越人類,答案中存在偏見的情況僅有0.8%,而人類醫生的答案為1.4%,Flan-PaLM為7.9% 。

不過,在存在的不正確內容比例上,Med-PaLM給出的答案達到18.7%,比人類醫生的1.4%以及Flan-PaLM的16.1%都為高,意味指令提示調整在內容正確性方面似乎降低模型的性能。

研究團體亦請來5名非專業使用者,評估所得出醫學答案的實用性。結果顯示,Flan-PaLM的答案只有60.6%被認為有幫助,Med-PaLM增加至80.3%,而人類醫生的結果最高,達91.1%。

Fortune Insight 聯乘 《華爾街日報》推出全新訂閱計劃「FI Prime Plus」,只需WSJ官網原價三分一價錢,即可同時暢讀《華爾街日報》全網內容和Fortune Insight大部份收費內容
按此訂閱:https://prime.fortuneinsight.com/web/wsj

Subscribe FORTUNE INSIGHT Telegram:
http://bit.ly/2M63TRO

Subscribe FORTUNE INSIGHT YouTube channel:
http://bit.ly/2FgJTen

查看原始文章

國歌事件|政府據報開始重設國歌網頁 以方便Google搜尋顯示正確國歌

Fortune Insight

本地|葉劉淑儀不接受Google解釋 認為有技術能力處理

Fortune Insight

本地|Google拒絕置頂正確國歌:不會人為操控搜索結果

Fortune Insight
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...