請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Google Gemini 3.1 Pro 預覽版登頂 AI 指數榜單 運行成本僅競爭對手不到一半

流動日報

更新於 1小時前 • 發布於 2小時前 • NewMobileLife

Google 推出的 Gemini 3.1 Pro 預覽版在 Artificial Analysis 人工智能指數中取得領先地位,以 4 分之差超越 Anthropic 的 Claude Opus 4.6。這款模型在成本效益方面表現突出,其運行費用不到競爭對手的一半,並在十個評測類別中的六個類別排名第一,包括代理編碼、知識、科學推理與物理學。相較於前代模型,其幻覺率大幅下降了 38 個百分點,顯示 Google 在模型可靠性上的顯著進展。

低功耗模型降低企業運行成本

在運行完整指數測試的成本對比中,Gemini 3.1 Pro 僅需 892 美元,遠低於 GPT-5.2 的 2,304 美元以及 Claude Opus 4.6 的 2,486 美元。測試數據顯示,Gemini 僅消耗 5,700 萬個 Token,遠低於 GPT-5.2 的 1.3 億個 Token。雖然如 GLM-5 等開源模型的成本更低(約 547 美元),但 Gemini 3.1 Pro 在效能與預算之間取得了極佳的平衡,打破了高效能 AI 模型必然伴隨高昂代價的市場慣例。

實際應用表現仍落後競爭對手

儘管在基準測試中表現優異,但 Gemini 3.1 Pro 在處理現實世界的代理任務時,仍落後於 Claude Sonnet 4.6、Opus 4.6 以及 GPT-5.2。這反映出基準測試雖然能代表技術參數的提升,但在複雜的多步驟任務中,Google 的模型仍有優化空間。隨著 2026 年 AI 競爭進入白熱化階段,企業在選擇模型時不僅看重跑分,更關注在實際生產環境中的執行力。

事實查核能力面臨穩定性挑戰

基準測試的侷限性在事實查核測試中尤為明顯。在內部的查核測試中,Gemini 3.1 Pro 的表現顯著遜於 Claude Opus 4.6 或 GPT-5.2,僅能驗證約四分之一的陳述內容,其準確度甚至低於 Gemini 3 Pro。這提醒開發者與企業用戶,雖然模型在科學推理與編碼上有所突破,但在資訊準確性要求極高的場景下,仍需建立專屬的評測標準,以確保 AI 輸出的內容符合真實情況。

NewMobileLife 網站:https://www.newmobilelife.com

查看原始文章

OpenAI 首款硬件裝置或為智能揚聲器 定價最高達 300 美元

流動日報

Microsoft Notepad 將支援圖片顯示 延續 WordPad 編輯功能

流動日報

Google 為 iPhone 版 Snapseed 加入專業拍攝功能

流動日報
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...