Google 搜尋 AI 摘要正確率雖達九成,每天仍恐產生數千萬筆錯誤答案
Google 搜尋中的 AI 摘要(AI Overviews)再度成為外界關注焦點。根據《紐約時報》與新創公司 Oumi 進行的測試,這項由 Gemini 驅動、顯示在搜尋結果頁首的功能雖然整體正確率約達九成,卻仍意味著每十則回答就有一則可能出錯。若把這個誤差擴大到 Google 每天龐大的搜尋量,錯誤答案恐怕會以每天數千萬筆的規模出現。
這份分析使用的是 OpenAI 於 2024 年推出的 SimpleQA 評測,該測試包含超過 4,000 題、答案可驗證的題目,用來衡量生成式 AI 的事實性。Oumi 先前在 Gemini 2.5 時期測得 AI Overviews 的正確率約為 85%,在 Gemini 3 更新後,正確率則提升到 91%。雖然結果顯示系統確實有所進步,但仍不足以消除外界對其可靠性的疑慮。
報導也列出多個失誤案例。例如在詢問「巴布·馬利(Bob Marley)舊居何時改建為博物館」時,AI Overviews 引用了三個來源,其中兩個甚至沒有提到日期,最後卻根據維基百科上互相矛盾的年份做出錯誤判斷。另一道題目要求回答馬友友(Yo Yo Ma)被列入古典音樂名人堂的日期,系統雖引用了相關組織網站,卻還聲稱世上沒有「Classical Music Hall of Fame」這個機構,顯示其在理解與整合資訊時仍可能失準。
值得注意的是,這項最新測試也反映出 Google 持續強化 Gemini 3 的整體表現,並將其整合進搜尋與其他產品之中。不過,AI Overviews 的案例也凸顯一個現實:即使模型能力提升,搜尋與生成式回答要達到接近人工可完全信任的程度,仍有一段距離。對使用者來說,這項功能已能提供多數正確答案,但在涉及具體日期、歷史細節與事實核對時,仍需保留查證空間。
(首圖來源:Unsplash)