請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

Gemini 3 Pro 實測跑分總整理,幾乎全面領先

硬是要學

更新於 2025年11月19日14:06 • 發布於 2025年11月19日13:20 • 手哥 HANDBRO

經過一段時間的內測,Google 發表旗下最先進的 AI 模型 Gemini 3,這個模型在各項測試中展現優異的推理能力,尤其在數學能力上更是遠超其他主流模型,同時也支援達 100 萬 Tokens 的超長脈絡 (context),更適合處理大型任務或多媒體檔案。

到底 Gemini 3 有多強? 手哥整理目前為止的各項測試數據,包含 Google 官方及 LMArena 的測試結果和大家分享。

Google 官方數據:Gemini 3 有最先進的推理能力

根據官方提供的數據,在博士級科學知識的測試項目上 (GPQA Diamond),Gemini 3 獲得 91.9% 的高分,比最近推出的 Claude Sonnet 4.5 及 GPT-5.1 的 88.1% 更高。

ARC-AGI-2 抽象視覺推理(非單純記憶)測試上,Gemini 3 得分高達 31.3% 及 45.1% (Deep Think),遠超過 Claude Sonnet 4.5 及 GPT5-1,相較前一代 Gemini 2.5 Pro 成長了 6 倍,顯示在視覺能力上有突破性的成長。

在程式開發工作方面,Gemini 3 在 SWE-Bench 這項軟體工程測試項目獲得 76.2% 的成績,相較前代有明顯進步,與 Claude Sonnet 4.5 (77.2%) 及 GPT-5.1 (76.3%) 幾乎已經並駕齊驅。

在長期規劃能力上,Gemini 3 進行了一項測試,該測試透過管理模擬的自動販賣機業務來測試長期規劃能力。Gemini 3 Pro 在整整一年的模擬營運中,保持了一致的工具使用和決策能力,在不偏離任務的情況下帶來了更高的回報。不過這樣的能力在中長期交易策略上是否能展現優勢,手哥也很期待下一季的 Alpha Arena 能納入 Gemini 3 一起進行競賽。。

Gemini 3 Pro 在 LMArena 真實世界實測

接著來看一下 LMArena 上使用者盲測數據。由於 Gemini 3 才剛推出,測試數據有限,不過還是可以從目前的結果觀察出 Gemini 3 Pro 大致上的能力範圍。

在整體的文字相關處理上,目前 Gemini 3 Pro 已經展現明顯優勢,而 grok 4.1 thinking 緊追在後。

指令遵循能力關係到 AI 互動和產出的結果,可以看到 Gemini 3 Pro 和 claude-sonnet-4-5-20250929-thinking-32kgrok-4.1-thinking 這兩個模型的能力幾乎是相近的。不過 Open AI 最新的 GPT-5.1 則還沒出現在榜上。

創意寫作上,頂級模型的分數幾乎是不相上下,也可以解釋每個模型都有自己的風格,而且也找得到喜歡自己風格的使用者。

程式開發能力上,目前 Gemini 3 Pro 已經展現出能和以開發見長的 claude-sonnet-4-5 一較高下的能力,如果再考量 100 萬的超長 tokens,對大型專案開發有龐大優勢,後續測試分數還滿令人期待的。

另外這邊也可以觀察到:像這類會頻繁出現大量 tokens 使用的情境幾乎都是大型私有模型的天下了,在整體排名中也只有 kimi-k2-thinking (未列在下方截圖) 勉強進入第 9 名。

網頁開發工作上,Gemini 3 Pro 基本上是以壓倒性的分數拉開與第 2 名之間的差距。

在視覺理解、辨識能力上,Gemini 從 2.5 Pro 就展現出強大的能力,Gemini 3 Pro 又有更顯著的進步,也拉開了和對手的差距。這個領域看來就是 Open AI 和 Google 的競爭了。

如何開始使用 Gemini 3?

目前 Gemini 3 已經開放所有人使用,一般使用者可以到網頁版 Gemini 或使用 Gemini App,Google AI Studio 也以開放使用。開發人員部分,目前開放 Google AI Ultra 訂戶、Gemini API key 使用者、Vertex API key 使用者可以使用 Gemini 3 Pro,Gemini Code Assist Enterprise 的使用者也即將在稍晚時間開放。

其他如 Google AI Pro、Google Code Assist 標準版、免費版使用者則需要填寫這份表單加入 Gemini 3 等待清單

Google 的優勢資源正在席捲 AI 市場

從 Google 官方數據到 LMArena 的實測結果,我們可以明確看出 Gemini 3 不僅在推理、視覺理解與程式開發等多方面都有長足進步,更以百萬 tokens 的超長脈絡處理能力,拉開與其他模型的差距。無論是科研用途、大型專案開發,還是日常生成任務,Gemini 3 都展現出令人期待的潛力與實力。雖然目前還有部分應用與測試尚待觀察,但可以確定的是:這場 AI 模型的競賽已進入新階段,Google 的這一步,走得不只是快,更是狠,其他競爭者要跟上的成本會越來越高。

更多相關文章推薦 »

查看原始文章

更多理財相關文章

01

最新數據揭曉了!台灣人「不想生」躍居全球第1

自由電子報
02

父母房產子女爭也沒用?網傳繼承新規順位大變動 報告解惑「你排第幾」

風傳媒
03

0056、00878、00919…誰才是2025最強高股息ETF?24檔高股息績效大比拚!

商周財富網
04

台積電攻略1/神山衝破1700元還能追? 陳威良:空手者靜待這價位再進場

鏡週刊
05

台股暴漲暴跌千點震盪,終場跌破5日線該擔心嗎?法人點出4大利多支撐多頭行情

風傳媒
06

台積電攻略2/不是「不能買」是「不能亂買」 杜金龍公開兩段式操作策略

鏡週刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...