請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Google 推出 Gemini 3 Deep Think,推理、程式開發能力再度超車 Claude Opus 4.6!

硬是要學

更新於 02月13日12:11 • 發布於 02月13日12:11 • 手哥 HANDBRO

AI 的競爭從「誰生成得更流暢」進入「誰推理得更深入」,真正的差距才開始被放大。Google 今天宣布推出最強大的 Gemini 3 Deep Think,它是一個專門為高階邏輯推導與科研任務打造的推理模式。在多項高難度 Benchmark 測試中,它與 Claude Opus 4.6 (Thinking Max) 的差距拉開到雙位數百分比,顯示 AI 推理能力正出現結構性變化,競爭也越趨激烈。

為什麼 Gemini 3 Deep Think 值得單獨討論?

Gemini 3 Deep Think 的定位並不是通用聊天優化,而是專攻「長鏈條推理」與「抽象規則建構」。這意味著它更強調多步驟推導過程的穩定性,以及在未知題型下的泛化能力。

過去大型語言模型在面對高階數學證明、理論物理推導或複雜演算法設計時,往往會在中途出現邏輯斷裂。Deep Think 的設計核心,就是降低這種「推理中斷」現象,使模型在長距離思考過程中維持一致性。這也是為什麼它的突破主要體現在抽象推理與奧林匹克等級測試上,而非單純語言流暢度。

抽象推理能力:ARC-AGI-2 的關鍵差距

ARC-AGI-2 是目前極具代表性的抽象推理測試之一,考驗模型在完全陌生規則下歸納模式的能力,而不是資料記憶。以下為官方數據整理:

模型 ARC-AGI-2 Gemini 3 Deep Think 84.6% Claude Opus 4.6 (Thinking Max) 68.8% GPT-5.2 52.9% Gemini 3 Pro Preview 31.1%

Deep Think 與 Claude Opus 4.6 之間出現接近 16 個百分點差距。對於這類高難度測試而言,這不是微幅提升,而是能力等級的跨越。這說明 Deep Think 在抽象規則建構與推理泛化方面已有明顯強化。

奧林匹克級數理能力:理論推導成為關鍵戰場

如果 ARC-AGI-2 測試的是抽象規則理解,那麼奧林匹克等級理論測試考驗的就是完整推導能力與邏輯嚴謹度。以下為 2025 年理論類測試成績整理:

測試項目 Deep Think Claude Opus 4.6 International Math Olympiad 2025 81.5% – International Physics Olympiad 2025 (theory) 87.7% 71.6% International Chemistry Olympiad 2025 (theory) 82.8%

特別是在 Physics 理論測試中,差距超過 16 個百分點。這代表模型在多步驟公式推導與條件控制方面的穩定性明顯提升。這類能力對科研、工程模擬與高等教育應用尤為重要。

Codeforces Elo 競技程式能力突破 3,000 分

在 Codeforces 無工具測試中,Gemini 3 Deep Think 取得 3455 Elo,屬於極高競技水準,代表模型在演算法設計、邊界條件處理與錯誤控制上具備更強穩定度。對於工程團隊而言,這種差距意味著更少的邏輯修補與更高的一次成功率。

模型 Codeforces Elo Gemini 3 Deep Think 3455 Gemini 3 Pro Preview 2512 Claude Opus 4.6 2352

整體 Benchmark 表現:不是單點突破,而是全面提升

如果將多項測試放在一起觀察,可以看到 Deep Think 並非只在單一項目勝出,而是在多個高階推理場景中穩定領先。

Benchmark Deep Think Claude Opus 4.6 ARC-AGI-2 84.6% 68.8% Humanity’s Last Exam 48.4% 40.0% MMMU-Pro 81.5% 73.9% CMT Benchmark 50.5% 17.1%

Google AI Ultra 優先使用

這個強大的模型目前只開放給 Google AI Ultra 的訂閱使用者使用,AI Pro 的使用者也可以期待 Google 早日開放。另外如果你是研究人員、工程師或企業代表的話,也可以向 Google 提出體驗申請,就可以透過 Gemini API 使用 Gemini 3 Ultra 的超強性能。

常見問答

Codeforces Elo 積分是什麼?

Codeforces Elo不是一般網頁或軟體開發競賽,這個競賽的主要項目是演算法程式設計(Competitive Programming),要求參賽者在限時內,針對特定的邏輯、數學或資料結構問題,撰寫出能在規定時間與記憶體限制內跑出正確結果的程式碼。在 AI 模型上主要用於衡量大語言模型(LLM)的高難度邏輯推理與程式撰寫能力。

積分最高等級為 3000+ 的 Legendary Grandmaster (黑紅雙色)

誰能用 Gemini 3 Deep Think ?

目前只開放給 Google AI Ultra 的訂閱使用者使用,AI Pro 的使用者也可以期待 Google 早日開放。另外如果你是研究人員、工程師或企業代表的話,也可以向 Google 提出體驗申請,就可以透過 Gemini API 使用 Gemini 3 Ultra 的超強性能。

更多相關文章推薦 »

查看原始文章

更多理財相關文章

01

大樂透初四開獎 桃園觀音開出頭獎1人獨得2.08億

中央通訊社
02

2,000萬大獎已刮出兩張!2026金馬年刮刮樂攻略 拚頭獎選哪張? 賺錢率最高的是誰?

新頭殼
03

國際金價似站穩5000美元 分析看好年底衝上6500

太報
04

全台1年結婚10.4萬創歷史新低 專家籲「情人一起買房」醜話最好說前頭

三立新聞網
05

全球藥價結構重組,台灣生技廠卡位戰,「專利斷崖」逼近,生技新藥大洗牌

科技新報
06

宮廟酬謝榜驚見「刮中2000萬」 鴻海尾牙幸運兒竟也在列

ETtoday新聞雲
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...