Gemini 3 Pro 實測跑分總整理，幾乎全面領先

經過一段時間的內測，Google 發表旗下最先進的 AI 模型 Gemini 3，這個模型在各項測試中展現優異的推理能力，尤其在數學能力上更是遠超其他主流模型，同時也支援達 100 萬 Tokens 的超長脈絡 (context)，更適合處理大型任務或多媒體檔案。

到底 Gemini 3 有多強？手哥整理目前為止的各項測試數據，包含 Google 官方及 LMArena 的測試結果和大家分享。

Google 官方數據：Gemini 3 有最先進的推理能力

根據官方提供的數據，在博士級科學知識的測試項目上 (GPQA Diamond)，Gemini 3 獲得 91.9% 的高分，比最近推出的 Claude Sonnet 4.5 及 GPT-5.1 的 88.1% 更高。

在 ARC-AGI-2 抽象視覺推理（非單純記憶）測試上，Gemini 3 得分高達 31.3% 及 45.1% (Deep Think)，遠超過 Claude Sonnet 4.5 及 GPT5-1，相較前一代 Gemini 2.5 Pro 成長了 6 倍，顯示在視覺能力上有突破性的成長。

在程式開發工作方面，Gemini 3 在 SWE-Bench 這項軟體工程測試項目獲得 76.2% 的成績，相較前代有明顯進步，與 Claude Sonnet 4.5 (77.2%) 及 GPT-5.1 (76.3%) 幾乎已經並駕齊驅。

在長期規劃能力上，Gemini 3 進行了一項測試，該測試透過管理模擬的自動販賣機業務來測試長期規劃能力。Gemini 3 Pro 在整整一年的模擬營運中，保持了一致的工具使用和決策能力，在不偏離任務的情況下帶來了更高的回報。不過這樣的能力在中長期交易策略上是否能展現優勢，手哥也很期待下一季的 Alpha Arena 能納入 Gemini 3 一起進行競賽。。

Gemini 3 Pro 在 LMArena 真實世界實測

接著來看一下 LMArena 上使用者盲測數據。由於 Gemini 3 才剛推出，測試數據有限，不過還是可以從目前的結果觀察出 Gemini 3 Pro 大致上的能力範圍。

在整體的文字相關處理上，目前 Gemini 3 Pro 已經展現明顯優勢，而 grok 4.1 thinking 緊追在後。

指令遵循能力關係到 AI 互動和產出的結果，可以看到 Gemini 3 Pro 和 claude-sonnet-4-5-20250929-thinking-32k、grok-4.1-thinking 這兩個模型的能力幾乎是相近的。不過 Open AI 最新的 GPT-5.1 則還沒出現在榜上。

在創意寫作上，頂級模型的分數幾乎是不相上下，也可以解釋每個模型都有自己的風格，而且也找得到喜歡自己風格的使用者。

在程式開發能力上，目前 Gemini 3 Pro 已經展現出能和以開發見長的 claude-sonnet-4-5 一較高下的能力，如果再考量 100 萬的超長 tokens，對大型專案開發有龐大優勢，後續測試分數還滿令人期待的。

另外這邊也可以觀察到：像這類會頻繁出現大量 tokens 使用的情境幾乎都是大型私有模型的天下了，在整體排名中也只有 kimi-k2-thinking (未列在下方截圖) 勉強進入第 9 名。

在網頁開發工作上，Gemini 3 Pro 基本上是以壓倒性的分數拉開與第 2 名之間的差距。

在視覺理解、辨識能力上，Gemini 從 2.5 Pro 就展現出強大的能力，Gemini 3 Pro 又有更顯著的進步，也拉開了和對手的差距。這個領域看來就是 Open AI 和 Google 的競爭了。

如何開始使用 Gemini 3？

目前 Gemini 3 已經開放所有人使用，一般使用者可以到網頁版 Gemini 或使用 Gemini App，Google AI Studio 也以開放使用。開發人員部分，目前開放 Google AI Ultra 訂戶、Gemini API key 使用者、Vertex API key 使用者可以使用 Gemini 3 Pro，Gemini Code Assist Enterprise 的使用者也即將在稍晚時間開放。

其他如 Google AI Pro、Google Code Assist 標準版、免費版使用者則需要填寫這份表單加入 Gemini 3 等待清單。

Google 的優勢資源正在席捲 AI 市場

從 Google 官方數據到 LMArena 的實測結果，我們可以明確看出 Gemini 3 不僅在推理、視覺理解與程式開發等多方面都有長足進步，更以百萬 tokens 的超長脈絡處理能力，拉開與其他模型的差距。無論是科研用途、大型專案開發，還是日常生成任務，Gemini 3 都展現出令人期待的潛力與實力。雖然目前還有部分應用與測試尚待觀察，但可以確定的是：這場 AI 模型的競賽已進入新階段，Google 的這一步，走得不只是快，更是狠，其他競爭者要跟上的成本會越來越高。

請更新您的瀏覽器

理財

硬是要學

Google 官方數據：Gemini 3 有最先進的推理能力

Gemini 3 Pro 在 LMArena 真實世界實測

如何開始使用 Gemini 3？

Google 的優勢資源正在席捲 AI 市場

更多相關文章推薦 »

更多理財相關文章

光電板大廠志超、宇環科技發重訊！董座徐正民逝世　享壽72歲

竹北吊車大王、王永慶誰最有錢？　真相令人大吃一驚「可能差兩個0」

美國知名家電大廠宣布裁員 400人慘丟飯碗

權王權后股東會年年報到　股市美魔女曝投資心法

首起AI「報復」行為？AI提交程式碼請求被拒　竟發文批評人類

年收30億！竹北吊車大王警告4妻「不准讓孩出國留學」：否則斷金援

請更新您的瀏覽器啟用Javascript

Gemini 3 Pro 實測跑分總整理，幾乎全面領先

硬是要學

Google 官方數據：Gemini 3 有最先進的推理能力

Gemini 3 Pro 在 LMArena 真實世界實測

如何開始使用 Gemini 3？

Google 的優勢資源正在席捲 AI 市場

更多相關文章推薦 »

更多理財相關文章

光電板大廠志超、宇環科技發重訊！董座徐正民逝世 享壽72歲

竹北吊車大王、王永慶誰最有錢？ 真相令人大吃一驚「可能差兩個0」

美國知名家電大廠宣布裁員 400人慘丟飯碗

權王權后股東會年年報到 股市美魔女曝投資心法

首起AI「報復」行為？AI提交程式碼請求被拒 竟發文批評人類

年收30億！竹北吊車大王警告4妻「不准讓孩出國留學」：否則斷金援

請更新您的瀏覽器

光電板大廠志超、宇環科技發重訊！董座徐正民逝世　享壽72歲

竹北吊車大王、王永慶誰最有錢？　真相令人大吃一驚「可能差兩個0」

權王權后股東會年年報到　股市美魔女曝投資心法

首起AI「報復」行為？AI提交程式碼請求被拒　竟發文批評人類