Google AI Overviews 準確率達 90% 為何仍是危機？揭開每年 5 兆次搜尋規模下的錯誤資訊風險

自 2024 年起，Google 開始將 AI 生成的摘要「AI Overviews」置於搜尋結果頁面的最上方，這項改變標誌著 Google 正從傳統的資訊整理者，進一步轉型為直接生成答案並主導使用者理解資訊方式的新入口。

為了檢視這項新功能的準確性，《紐約時報》委託 AI 新創公司 Oumi，透過業界廣泛使用的 SimpleQA 基準測試進行深度分析。結果顯示，儘管 AI Overviews 的整體準確率已達九成左右，但在 Google 每年超過 5 兆次搜尋的規模下檢視，這項功能所暴露出的不再只是偶發失誤，而是一場規模空前、可能被快速放大的錯誤資訊危機。

Oumi 以 4,326 筆 Google 搜尋為樣本，進行兩階段測試。數據顯示，去年 10 月採用 Gemini 2 模型時，AI Overviews 的準確率為 85%，到了今年 2 月升級為 Gemini 3 後，準確率確實提升至 91%。然而，這看似亮眼的成績單背後卻隱藏著巨大隱憂。

由於 Google 每年需要處理超過 5 兆次的搜尋，這也代表即使只有不到一成的回答不準確，AI Overviews 每小時仍會提供數千萬個錯誤答案，換算下來每分鐘更會產出數十萬筆不準確的資訊。《Popular Science》對此評論，90% 聽起來或許是個及格分數，但在 Google 如此龐大的體量下，失誤累積的速度快得令人擔憂，幾乎是以分鐘為單位在快速擴散。

更棘手的難題：「看似有來源」卻未必真的正確

除了龐大的錯誤基數外，《紐約時報》的報導更點出一個深層問題：超過一半的正確回答其實屬於「無根據（ungrounded）」狀態。也就是說，即使 AI 附上引用來源的網站連結，這些來源卻未必能完全支撐 AI 所呈現的資訊。

更令人擔憂的是，依據 Oumi 的分析，這類「無根據」回答的比例不降反升，從去年 10 月 Gemini 2 時期的 37%，大幅攀升到今年 2 月 Gemini 3 時期的 56%。這種現象讓使用者陷入了更大的困境：即使眼前有引用連結，大眾也越來越難以判斷 AI Overviews 的答案究竟是真正被來源支持，還是單純「看起來」像有根據，這更大幅增加核實的難度。

錯誤不只來自幻覺，更源於誤讀

《紐約時報》進一步列舉多個案例以說明 AI Overviews 的出錯模式。例如，AI 會將 Bob Marley Museum 的開館年份誤植為 1987 年，但實際為 1986 年；或是錯誤陳述知名大提琴家馬友友（Yo-Yo Ma）沒有入選古典音樂名人堂（Classical Music Hall of Fame）的紀錄；甚至在給出美國救援投手 Dick Drago 正確死亡年齡的同時，卻在背景資訊中反覆誤報他的死亡日期。這些結果皆顯示，AI 不僅可能誤引來源、誤讀資訊，還會在正確答案旁夾帶錯誤的背景細節。

此外，引用來源的品質也是一大隱患。Oumi 分析 AI Overviews 產生的 5,380 個引用來源後發現，社群平台 Facebook 與 Reddit 竟分別高居第二與第四大常見來源。《Popular Science》也強調，除了來源本身的品質問題外，AI Overviews 有時即使連結到可靠的網站，仍可能在生成答案時錯誤陳述來源內容。

「置頂」的權威感，讓錯誤更容易被相信與操弄

《Popular Science》指出，由於 AI Overviews 被放置在大多數搜尋結果頁面的最上方，這不僅讓更多人優先看到，也更容易引導使用者直接假設這些結果是值得信任的。

與此同時，《紐約時報》也揭露 AI Overviews 面臨的操弄風險：只要有人刻意撰寫自我宣稱或錯誤的歷史內容，並設法讓系統抓取，AI 就可能把這些資訊當成真實依據來生成答案。例如，一位 Podcast 主持人刻意在部落格發文，自稱是吃熱狗大賽冠軍，隨後 AI Overviews 竟真的將他列為「最會吃熱狗的科技記者」第一名，並把這些虛構內容當成事實輸出。

針對上述疑慮，Google 發言人 Ned Adriance 回應：「這項研究存在嚴重的漏洞。」並強調這項研究無法反映人們在 Google 上實際搜尋的內容。對於操弄與安全風險，Google 官方聲明也反駁道：「我們的搜尋 AI 功能建立在相同的排序與安全保護之上，這些保護能阻擋絕大多數垃圾訊息出現在結果中，這些例子大部分是不切實際的搜尋，一般人其實不會這麼做。」

Google AI Overviews 的核心爭議點，不在於準確度是否已從 85% 進步到 91%，而是在於當 AI Overviews 成為搜尋頁面最上方的答案入口後，即使整體的錯誤率下降，在每年 5 兆次的龐大搜尋規模下，仍會因為無根據（ungrounded）回答比例的攀升、參差不齊的引用來源品質，以及容易遭人為操弄等漏洞，持續在極短的時間內將錯誤資訊的風險無限放大。因此，在可見的未來內，使用者面對這些 AI 摘要時，仍必須保持高度懷疑與警覺。

＊本文開放合作夥伴轉載，資料來源：《The New York Times》、《Futurism》、《Popular Science》，首圖來源：Unsplash

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

更棘手的難題：「看似有來源」卻未必真的正確

錯誤不只來自幻覺，更源於誤讀

「置頂」的權威感，讓錯誤更容易被相信與操弄

更多理財相關文章

「2職業工會」長期欠費遭列黑名單　勞保局示警：別再繳錢

台泥辜家捍衛經營權？出動8家公司全面徵求委託書

股王信驊衝16495元新紀錄　台股上市櫃再現47千金

股后解密／年薪上看50個月羨煞科技業　穎崴今年再徵300人、高中畢業也能加入

年程、聯致、景傳、美強光…興櫃熔斷一籮筐「這檔4秒收工」！熱錢外溢想跟搶：一件事得留意

車主注意了！4/30前少做「1事」　恐被罰錢、最慘送法院強制執行

請更新您的瀏覽器啟用Javascript

Google AI Overviews 準確率達 90% 為何仍是危機？揭開每年 5 兆次搜尋規模下的錯誤資訊風險

TechOrange 科技報橘

更棘手的難題：「看似有來源」卻未必真的正確

錯誤不只來自幻覺，更源於誤讀

「置頂」的權威感，讓錯誤更容易被相信與操弄

更多理財相關文章

「2職業工會」長期欠費遭列黑名單 勞保局示警：別再繳錢

台泥辜家捍衛經營權？出動8家公司全面徵求委託書

股王信驊衝16495元新紀錄 台股上市櫃再現47千金

股后解密／年薪上看50個月羨煞科技業 穎崴今年再徵300人、高中畢業也能加入

年程、聯致、景傳、美強光…興櫃熔斷一籮筐「這檔4秒收工」！熱錢外溢想跟搶：一件事得留意

車主注意了！4/30前少做「1事」 恐被罰錢、最慘送法院強制執行

請更新您的瀏覽器

「2職業工會」長期欠費遭列黑名單　勞保局示警：別再繳錢

股王信驊衝16495元新紀錄　台股上市櫃再現47千金

股后解密／年薪上看50個月羨煞科技業　穎崴今年再徵300人、高中畢業也能加入

車主注意了！4/30前少做「1事」　恐被罰錢、最慘送法院強制執行