2025年1月29日 (優分析產業數據中心) - 中國 AI 新創 DeepSeek 的聊天機器人在新聞資訊準確性測試中表現不佳,準確率僅 17%,在 NewsGuard 可信度審查中排名第十,遠落後於 OpenAI 的 ChatGPT 和 Google Gemini 等西方 AI 競爭對手。
根據新聞可信度評級機構 NewsGuard 週三發布的報告,DeepSeek 聊天機器人在回應新聞相關問題時,30% 的回覆包含錯誤資訊,53% 的回答則過於模糊或無實質內容,總體錯誤率高達 83%。相比之下,西方 AI 競爭對手的平均錯誤率為 62%,顯示 DeepSeek 在新聞準確性方面的表現仍有明顯差距。
DeepSeek AI 模型引發市場關注,但可信度受質疑
DeepSeek 自推出以來,迅速成為 蘋果 App Store 下載量最高的 AI 應用,引發市場對美國 AI 競爭力的討論,並導致美國科技股短線重挫,市值蒸發約 1 兆美元。
然而,NewsGuard 的測試結果顯示,DeepSeek 的 AI 模型在處理新聞資訊時存在大量錯誤與不準確回答,這與其聲稱能以 OpenAI 競品 1/30 成本 達到同等水準的說法形成對比。
目前,DeepSeek 尚未對 NewsGuard 的測試結果作出回應。
審查結果:DeepSeek 可能受到中國政策影響
NewsGuard 表示,他們使用 300 條測試問題 來評估 DeepSeek,與此前測試 OpenAI、Google Gemini 等 AI 模型的方式相同,其中 30 條問題涉及 10 則網路流傳的不實消息,例如:
美國 UnitedHealthcare 高層 Brian Thompson 遇害傳言
亞塞拜然航空 8243 號班機墜毀事件
測試顯示,DeepSeek 在三個與中國無關的新聞問題上,未經詢問便主動重複中國政府的官方立場,其中包括亞塞拜然航空墜機事件的回答,顯示其對新聞事件的回應可能受到政策影響。
「DeepSeek 突破的意義不在於準確回答新聞問題,而在於它能以 OpenAI 競品 1/30 的成本運行,」 D.A. Davidson 分析師 Gil Luria 指出。
NewsGuard 也表示,DeepSeek 與其他 AI 模型一樣,在處理惡意用戶試圖透過 AI 生成錯誤資訊時,仍然容易受到影響,顯示 AI 技術在應對錯誤資訊方面仍有挑戰。