Google 搜尋 AI 摘要正確率雖達九成，每天仍恐產生數千萬筆錯誤答案

Google 搜尋中的 AI 摘要（AI Overviews）再度成為外界關注焦點。根據《紐約時報》與新創公司 Oumi 進行的測試，這項由 Gemini 驅動、顯示在搜尋結果頁首的功能雖然整體正確率約達九成，卻仍意味著每十則回答就有一則可能出錯。若把這個誤差擴大到 Google 每天龐大的搜尋量，錯誤答案恐怕會以每天數千萬筆的規模出現。

這份分析使用的是 OpenAI 於 2024 年推出的 SimpleQA 評測，該測試包含超過 4,000 題、答案可驗證的題目，用來衡量生成式 AI 的事實性。Oumi 先前在 Gemini 2.5 時期測得 AI Overviews 的正確率約為 85%，在 Gemini 3 更新後，正確率則提升到 91%。雖然結果顯示系統確實有所進步，但仍不足以消除外界對其可靠性的疑慮。

報導也列出多個失誤案例。例如在詢問「巴布·馬利（Bob Marley）舊居何時改建為博物館」時，AI Overviews 引用了三個來源，其中兩個甚至沒有提到日期，最後卻根據維基百科上互相矛盾的年份做出錯誤判斷。另一道題目要求回答馬友友（Yo Yo Ma）被列入古典音樂名人堂的日期，系統雖引用了相關組織網站，卻還聲稱世上沒有「Classical Music Hall of Fame」這個機構，顯示其在理解與整合資訊時仍可能失準。

值得注意的是，這項最新測試也反映出 Google 持續強化 Gemini 3 的整體表現，並將其整合進搜尋與其他產品之中。不過，AI Overviews 的案例也凸顯一個現實：即使模型能力提升，搜尋與生成式回答要達到接近人工可完全信任的程度，仍有一段距離。對使用者來說，這項功能已能提供多數正確答案，但在涉及具體日期、歷史細節與事實核對時，仍需保留查證空間。

Testing suggests Google’s AI Overviews tell millions of lies per hour

（首圖來源：Unsplash）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

中東戰事衝擊曼谷觀光店家：業績剩2成彷彿疫情重演

富婆遺產稅破億沒人繳！15繼承人敗訴「黃金地段」土地法拍　底價曝光

股價275噴到1705！他點名「低調神山」崛起：市值海放鴻海1.5兆...全因這力量

狂漲台積電又列注意股！證交所公布33檔名單

僅1年飆到1705元！市值反超鴻海1.5兆　謝金河點名這檔：另一座神山崛起

中工剔除董事提名惹火市場派！寶佳陣營聲請假處分　4/13商業法院見

請更新您的瀏覽器啟用Javascript