Gemini 3 Pro 實測跑分總整理,幾乎全面領先
經過一段時間的內測,Google 發表旗下最先進的 AI 模型 Gemini 3,這個模型在各項測試中展現優異的推理能力,尤其在數學能力上更是遠超其他主流模型,同時也支援達 100 萬 Tokens 的超長脈絡 (context),更適合處理大型任務或多媒體檔案。
到底 Gemini 3 有多強? 手哥整理目前為止的各項測試數據,包含 Google 官方及 LMArena 的測試結果和大家分享。
Google 官方數據:Gemini 3 有最先進的推理能力
根據官方提供的數據,在博士級科學知識的測試項目上 (GPQA Diamond),Gemini 3 獲得 91.9% 的高分,比最近推出的 Claude Sonnet 4.5 及 GPT-5.1 的 88.1% 更高。
在 ARC-AGI-2 抽象視覺推理(非單純記憶)測試上,Gemini 3 得分高達 31.3% 及 45.1% (Deep Think),遠超過 Claude Sonnet 4.5 及 GPT5-1,相較前一代 Gemini 2.5 Pro 成長了 6 倍,顯示在視覺能力上有突破性的成長。
在程式開發工作方面,Gemini 3 在 SWE-Bench 這項軟體工程測試項目獲得 76.2% 的成績,相較前代有明顯進步,與 Claude Sonnet 4.5 (77.2%) 及 GPT-5.1 (76.3%) 幾乎已經並駕齊驅。
在長期規劃能力上,Gemini 3 進行了一項測試,該測試透過管理模擬的自動販賣機業務來測試長期規劃能力。Gemini 3 Pro 在整整一年的模擬營運中,保持了一致的工具使用和決策能力,在不偏離任務的情況下帶來了更高的回報。不過這樣的能力在中長期交易策略上是否能展現優勢,手哥也很期待下一季的 Alpha Arena 能納入 Gemini 3 一起進行競賽。。
Gemini 3 Pro 在 LMArena 真實世界實測
接著來看一下 LMArena 上使用者盲測數據。由於 Gemini 3 才剛推出,測試數據有限,不過還是可以從目前的結果觀察出 Gemini 3 Pro 大致上的能力範圍。
在整體的文字相關處理上,目前 Gemini 3 Pro 已經展現明顯優勢,而 grok 4.1 thinking 緊追在後。
指令遵循能力關係到 AI 互動和產出的結果,可以看到 Gemini 3 Pro 和 claude-sonnet-4-5-20250929-thinking-32k、grok-4.1-thinking 這兩個模型的能力幾乎是相近的。不過 Open AI 最新的 GPT-5.1 則還沒出現在榜上。
在創意寫作上,頂級模型的分數幾乎是不相上下,也可以解釋每個模型都有自己的風格,而且也找得到喜歡自己風格的使用者。
在程式開發能力上,目前 Gemini 3 Pro 已經展現出能和以開發見長的 claude-sonnet-4-5 一較高下的能力,如果再考量 100 萬的超長 tokens,對大型專案開發有龐大優勢,後續測試分數還滿令人期待的。
另外這邊也可以觀察到:像這類會頻繁出現大量 tokens 使用的情境幾乎都是大型私有模型的天下了,在整體排名中也只有 kimi-k2-thinking (未列在下方截圖) 勉強進入第 9 名。
在網頁開發工作上,Gemini 3 Pro 基本上是以壓倒性的分數拉開與第 2 名之間的差距。
在視覺理解、辨識能力上,Gemini 從 2.5 Pro 就展現出強大的能力,Gemini 3 Pro 又有更顯著的進步,也拉開了和對手的差距。這個領域看來就是 Open AI 和 Google 的競爭了。
如何開始使用 Gemini 3?
目前 Gemini 3 已經開放所有人使用,一般使用者可以到網頁版 Gemini 或使用 Gemini App,Google AI Studio 也以開放使用。開發人員部分,目前開放 Google AI Ultra 訂戶、Gemini API key 使用者、Vertex API key 使用者可以使用 Gemini 3 Pro,Gemini Code Assist Enterprise 的使用者也即將在稍晚時間開放。
其他如 Google AI Pro、Google Code Assist 標準版、免費版使用者則需要填寫這份表單加入 Gemini 3 等待清單。
Google 的優勢資源正在席捲 AI 市場
從 Google 官方數據到 LMArena 的實測結果,我們可以明確看出 Gemini 3 不僅在推理、視覺理解與程式開發等多方面都有長足進步,更以百萬 tokens 的超長脈絡處理能力,拉開與其他模型的差距。無論是科研用途、大型專案開發,還是日常生成任務,Gemini 3 都展現出令人期待的潛力與實力。雖然目前還有部分應用與測試尚待觀察,但可以確定的是:這場 AI 模型的競賽已進入新階段,Google 的這一步,走得不只是快,更是狠,其他競爭者要跟上的成本會越來越高。