Google Gemini 3.1 Pro 預覽版登頂 AI 指數榜單　運行成本僅競爭對手不到一半

Google 推出的 Gemini 3.1 Pro 預覽版在 Artificial Analysis 人工智能指數中取得領先地位，以 4 分之差超越 Anthropic 的 Claude Opus 4.6。這款模型在成本效益方面表現突出，其運行費用不到競爭對手的一半，並在十個評測類別中的六個類別排名第一，包括代理編碼、知識、科學推理與物理學。相較於前代模型，其幻覺率大幅下降了 38 個百分點，顯示 Google 在模型可靠性上的顯著進展。

低功耗模型降低企業運行成本

在運行完整指數測試的成本對比中，Gemini 3.1 Pro 僅需 892 美元，遠低於 GPT-5.2 的 2,304 美元以及 Claude Opus 4.6 的 2,486 美元。測試數據顯示，Gemini 僅消耗 5,700 萬個 Token，遠低於 GPT-5.2 的 1.3 億個 Token。雖然如 GLM-5 等開源模型的成本更低（約 547 美元），但 Gemini 3.1 Pro 在效能與預算之間取得了極佳的平衡，打破了高效能 AI 模型必然伴隨高昂代價的市場慣例。

實際應用表現仍落後競爭對手

儘管在基準測試中表現優異，但 Gemini 3.1 Pro 在處理現實世界的代理任務時，仍落後於 Claude Sonnet 4.6、Opus 4.6 以及 GPT-5.2。這反映出基準測試雖然能代表技術參數的提升，但在複雜的多步驟任務中，Google 的模型仍有優化空間。隨著 2026 年 AI 競爭進入白熱化階段，企業在選擇模型時不僅看重跑分，更關注在實際生產環境中的執行力。

事實查核能力面臨穩定性挑戰

基準測試的侷限性在事實查核測試中尤為明顯。在內部的查核測試中，Gemini 3.1 Pro 的表現顯著遜於 Claude Opus 4.6 或 GPT-5.2，僅能驗證約四分之一的陳述內容，其準確度甚至低於 Gemini 3 Pro。這提醒開發者與企業用戶，雖然模型在科學推理與編碼上有所突破，但在資訊準確性要求極高的場景下，仍需建立專屬的評測標準，以確保 AI 輸出的內容符合真實情況。

NewMobileLife 網站：https://www.newmobilelife.com

請更新您的瀏覽器

科技

流動日報

低功耗模型降低企業運行成本

實際應用表現仍落後競爭對手

事實查核能力面臨穩定性挑戰

查看更多

OpenAI 首款硬件裝置或為智能揚聲器　定價最高達 300 美元

Microsoft Notepad 將支援圖片顯示　延續 WordPad 編輯功能

Google 為 iPhone 版 Snapseed 加入專業拍攝功能

請更新您的瀏覽器啟用Javascript

Google Gemini 3.1 Pro 預覽版登頂 AI 指數榜單 運行成本僅競爭對手不到一半

流動日報

低功耗模型降低企業運行成本

實際應用表現仍落後競爭對手

事實查核能力面臨穩定性挑戰

查看更多

OpenAI 首款硬件裝置或為智能揚聲器 定價最高達 300 美元

Microsoft Notepad 將支援圖片顯示 延續 WordPad 編輯功能

Google 為 iPhone 版 Snapseed 加入專業拍攝功能

請更新您的瀏覽器

Google Gemini 3.1 Pro 預覽版登頂 AI 指數榜單　運行成本僅競爭對手不到一半

OpenAI 首款硬件裝置或為智能揚聲器　定價最高達 300 美元

Microsoft Notepad 將支援圖片顯示　延續 WordPad 編輯功能