Google AI Overviews 準確率達 90% 為何仍是危機?揭開每年 5 兆次搜尋規模下的錯誤資訊風險
自 2024 年起,Google 開始將 AI 生成的摘要「AI Overviews」置於搜尋結果頁面的最上方,這項改變標誌著 Google 正從傳統的資訊整理者,進一步轉型為直接生成答案並主導使用者理解資訊方式的新入口。
為了檢視這項新功能的準確性,《紐約時報》委託 AI 新創公司 Oumi,透過業界廣泛使用的 SimpleQA 基準測試進行深度分析。結果顯示,儘管 AI Overviews 的整體準確率已達九成左右,但在 Google 每年超過 5 兆次搜尋的規模下檢視,這項功能所暴露出的不再只是偶發失誤,而是一場規模空前、可能被快速放大的錯誤資訊危機。
Oumi 以 4,326 筆 Google 搜尋為樣本,進行兩階段測試。數據顯示,去年 10 月採用 Gemini 2 模型時,AI Overviews 的準確率為 85%,到了今年 2 月升級為 Gemini 3 後,準確率確實提升至 91%。 然而,這看似亮眼的成績單背後卻隱藏著巨大隱憂。
由於 Google 每年需要處理超過 5 兆次的搜尋,這也代表即使只有不到一成的回答不準確,AI Overviews 每小時仍會提供數千萬個錯誤答案,換算下來每分鐘更會產出數十萬筆不準確的資訊。《Popular Science》對此評論,90% 聽起來或許是個及格分數,但在 Google 如此龐大的體量下,失誤累積的速度快得令人擔憂,幾乎是以分鐘為單位在快速擴散。
更棘手的難題:「看似有來源」卻未必真的正確
除了龐大的錯誤基數外,《紐約時報》的報導更點出一個深層問題:超過一半的正確回答其實屬於「無根據(ungrounded)」狀態。也就是說,即使 AI 附上引用來源的網站連結,這些來源卻未必能完全支撐 AI 所呈現的資訊。
更令人擔憂的是,依據 Oumi 的分析,這類「無根據」回答的比例不降反升,從去年 10 月 Gemini 2 時期的 37%,大幅攀升到今年 2 月 Gemini 3 時期的 56%。這種現象讓使用者陷入了更大的困境:即使眼前有引用連結,大眾也越來越難以判斷 AI Overviews 的答案究竟是真正被來源支持,還是單純「看起來」像有根據,這更大幅增加核實的難度。
錯誤不只來自幻覺,更源於誤讀
《紐約時報》進一步列舉多個案例以說明 AI Overviews 的出錯模式。例如,AI 會將 Bob Marley Museum 的開館年份誤植為 1987 年,但實際為 1986 年;或是錯誤陳述知名大提琴家馬友友(Yo-Yo Ma)沒有入選古典音樂名人堂(Classical Music Hall of Fame)的紀錄;甚至在給出美國救援投手 Dick Drago 正確死亡年齡的同時,卻在背景資訊中反覆誤報他的死亡日期。這些結果皆顯示,AI 不僅可能誤引來源、誤讀資訊,還會在正確答案旁夾帶錯誤的背景細節。
此外,引用來源的品質也是一大隱患。Oumi 分析 AI Overviews 產生的 5,380 個引用來源後發現,社群平台 Facebook 與 Reddit 竟分別高居第二與第四大常見來源。《Popular Science》也強調,除了來源本身的品質問題外,AI Overviews 有時即使連結到可靠的網站,仍可能在生成答案時錯誤陳述來源內容。
「置頂」的權威感,讓錯誤更容易被相信與操弄
《Popular Science》指出,由於 AI Overviews 被放置在大多數搜尋結果頁面的最上方,這不僅讓更多人優先看到,也更容易引導使用者直接假設這些結果是值得信任的。
與此同時,《紐約時報》也揭露 AI Overviews 面臨的操弄風險:只要有人刻意撰寫自我宣稱或錯誤的歷史內容,並設法讓系統抓取,AI 就可能把這些資訊當成真實依據來生成答案。例如,一位 Podcast 主持人刻意在部落格發文,自稱是吃熱狗大賽冠軍,隨後 AI Overviews 竟真的將他列為「最會吃熱狗的科技記者」第一名,並把這些虛構內容當成事實輸出。
針對上述疑慮,Google 發言人 Ned Adriance 回應:「這項研究存在嚴重的漏洞。」並強調這項研究無法反映人們在 Google 上實際搜尋的內容。對於操弄與安全風險,Google 官方聲明也反駁道:「我們的搜尋 AI 功能建立在相同的排序與安全保護之上,這些保護能阻擋絕大多數垃圾訊息出現在結果中,這些例子大部分是不切實際的搜尋,一般人其實不會這麼做。」
Google AI Overviews 的核心爭議點,不在於準確度是否已從 85% 進步到 91%,而是在於當 AI Overviews 成為搜尋頁面最上方的答案入口後,即使整體的錯誤率下降,在每年 5 兆次的龐大搜尋規模下,仍會因為無根據(ungrounded)回答比例的攀升、參差不齊的引用來源品質,以及容易遭人為操弄等漏洞,持續在極短的時間內將錯誤資訊的風險無限放大。因此,在可見的未來內,使用者面對這些 AI 摘要時,仍必須保持高度懷疑與警覺。
*本文開放合作夥伴轉載,資料來源:《The New York Times》、《Futurism》、《Popular Science》,首圖來源:Unsplash