請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Google AI Overviews 準確率達 90% 為何仍是危機?揭開每年 5 兆次搜尋規模下的錯誤資訊風險

TechOrange 科技報橘

更新於 04月10日10:42 • 發布於 04月10日02:42 • 李昀蔚

自 2024 年起,Google 開始將 AI 生成的摘要「AI Overviews」置於搜尋結果頁面的最上方,這項改變標誌著 Google 正從傳統的資訊整理者,進一步轉型為直接生成答案並主導使用者理解資訊方式的新入口。

為了檢視這項新功能的準確性,《紐約時報》委託 AI 新創公司 Oumi,透過業界廣泛使用的 SimpleQA 基準測試進行深度分析。結果顯示,儘管 AI Overviews 的整體準確率已達九成左右,但在 Google 每年超過 5 兆次搜尋的規模下檢視,這項功能所暴露出的不再只是偶發失誤,而是一場規模空前、可能被快速放大的錯誤資訊危機。

Oumi 以 4,326 筆 Google 搜尋為樣本,進行兩階段測試。數據顯示,去年 10 月採用 Gemini 2 模型時,AI Overviews 的準確率為 85%,到了今年 2 月升級為 Gemini 3 後,準確率確實提升至 91%。 然而,這看似亮眼的成績單背後卻隱藏著巨大隱憂。

由於 Google 每年需要處理超過 5 兆次的搜尋,這也代表即使只有不到一成的回答不準確,AI Overviews 每小時仍會提供數千萬個錯誤答案,換算下來每分鐘更會產出數十萬筆不準確的資訊。《Popular Science》對此評論,90% 聽起來或許是個及格分數,但在 Google 如此龐大的體量下,失誤累積的速度快得令人擔憂,幾乎是以分鐘為單位在快速擴散。

更棘手的難題:「看似有來源」卻未必真的正確

除了龐大的錯誤基數外,《紐約時報》的報導更點出一個深層問題:超過一半的正確回答其實屬於「無根據(ungrounded)」狀態。也就是說,即使 AI 附上引用來源的網站連結,這些來源卻未必能完全支撐 AI 所呈現的資訊。

更令人擔憂的是,依據 Oumi 的分析,這類「無根據」回答的比例不降反升,從去年 10 月 Gemini 2 時期的 37%,大幅攀升到今年 2 月 Gemini 3 時期的 56%。這種現象讓使用者陷入了更大的困境:即使眼前有引用連結,大眾也越來越難以判斷 AI Overviews 的答案究竟是真正被來源支持,還是單純「看起來」像有根據,這更大幅增加核實的難度。

錯誤不只來自幻覺,更源於誤讀

《紐約時報》進一步列舉多個案例以說明 AI Overviews 的出錯模式。例如,AI 會將 Bob Marley Museum 的開館年份誤植為 1987 年,但實際為 1986 年;或是錯誤陳述知名大提琴家馬友友(Yo-Yo Ma)沒有入選古典音樂名人堂(Classical Music Hall of Fame)的紀錄;甚至在給出美國救援投手 Dick Drago 正確死亡年齡的同時,卻在背景資訊中反覆誤報他的死亡日期。這些結果皆顯示,AI 不僅可能誤引來源、誤讀資訊,還會在正確答案旁夾帶錯誤的背景細節。

此外,引用來源的品質也是一大隱患。Oumi 分析 AI Overviews 產生的 5,380 個引用來源後發現,社群平台 Facebook 與 Reddit 竟分別高居第二與第四大常見來源。《Popular Science》也強調,除了來源本身的品質問題外,AI Overviews 有時即使連結到可靠的網站,仍可能在生成答案時錯誤陳述來源內容。

「置頂」的權威感,讓錯誤更容易被相信與操弄

《Popular Science》指出,由於 AI Overviews 被放置在大多數搜尋結果頁面的最上方,這不僅讓更多人優先看到,也更容易引導使用者直接假設這些結果是值得信任的。

與此同時,《紐約時報》也揭露 AI Overviews 面臨的操弄風險:只要有人刻意撰寫自我宣稱或錯誤的歷史內容,並設法讓系統抓取,AI 就可能把這些資訊當成真實依據來生成答案。例如,一位 Podcast 主持人刻意在部落格發文,自稱是吃熱狗大賽冠軍,隨後 AI Overviews 竟真的將他列為「最會吃熱狗的科技記者」第一名,並把這些虛構內容當成事實輸出。

針對上述疑慮,Google 發言人 Ned Adriance 回應:「這項研究存在嚴重的漏洞。」並強調這項研究無法反映人們在 Google 上實際搜尋的內容。對於操弄與安全風險,Google 官方聲明也反駁道:「我們的搜尋 AI 功能建立在相同的排序與安全保護之上,這些保護能阻擋絕大多數垃圾訊息出現在結果中,這些例子大部分是不切實際的搜尋,一般人其實不會這麼做。」

Google AI Overviews 的核心爭議點,不在於準確度是否已從 85% 進步到 91%,而是在於當 AI Overviews 成為搜尋頁面最上方的答案入口後,即使整體的錯誤率下降,在每年 5 兆次的龐大搜尋規模下,仍會因為無根據(ungrounded)回答比例的攀升、參差不齊的引用來源品質,以及容易遭人為操弄等漏洞,持續在極短的時間內將錯誤資訊的風險無限放大。因此,在可見的未來內,使用者面對這些 AI 摘要時,仍必須保持高度懷疑與警覺。

*本文開放合作夥伴轉載,資料來源:《The New York Times》《Futurism》《Popular Science》,首圖來源:Unsplash

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

「2職業工會」長期欠費遭列黑名單 勞保局示警:別再繳錢

CTWANT
02

台泥辜家捍衛經營權?出動8家公司全面徵求委託書

自由電子報
03

股王信驊衝16495元新紀錄 台股上市櫃再現47千金

中央通訊社
04

股后解密/年薪上看50個月羨煞科技業 穎崴今年再徵300人、高中畢業也能加入

鏡報
05

年程、聯致、景傳、美強光…興櫃熔斷一籮筐「這檔4秒收工」!熱錢外溢想跟搶:一件事得留意

今周刊
06

車主注意了!4/30前少做「1事」 恐被罰錢、最慘送法院強制執行

三立新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...