請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Gemini 3 Deep Think 大升級,學術基準測試勝 Claude Opus 4.6、GPT-5.2

科技新報

更新於 1天前 • 發布於 1天前

Deep Think 可說是 Google 為 Gemini 打造的一種進階推理模式,以解決科學、研究及工程領域的挑戰。現在 Google 推出 Gemini 3 Deep Think 重大升級,在學術基準測試勝過 Claude Opus 4.6GPT-5.2

Google 去年展示專門設計的 Deep Think,成功應對多項棘手的推理挑戰,在世界級的數學與程式設計競賽達到金牌水準。近期,Deep Think 也讓專門代理能進行研究級數學探索。

升級後的 Deep Think 持續突破邊界,在最嚴格的學術基準測試拿下高分,包括:

  • 在測試先進模型極限的基準測試 Humanity’s Last Exam,以不使用任何工具的情況創下 48.4% 新紀錄。

  • 在 ARC-AGI-2 測驗取得前所未有的 84.6% 成績,並經 ARC Prize 基金會認證。

  • 由競賽型程式設計挑戰構成的 Codeforces 基準測試,取得高達 3,455 的 Elo 分數。

  • 在 2025 年國際數學奧林匹亞競賽達到金牌水準表現。

▲ Gemini 3 Deep Think 學術基準測試結果勝過 Claude Opus 4.6、GPT-5.2。

除數學與程式設計外,升級後的 Deep Think 也在化學與物理等科學領域展現卓越能力。在 2025 年國際物理奧林匹亞與化學奧林匹亞的筆試部分皆達到金牌等級,同時展現進階理論物理能力,在 CMT-Benchmark 取得 50.5% 成績。

不僅擁有最先進的性能表現,Deep Think 也為推動實際應用而設計,使研究人員能解析複雜數據,並讓工程師透過程式碼對實體系統進行建模。

▲ 將草圖變成可 3D 列印的實體,Deep Think 會分析圖稿、建模,並產生可用於 3D 列印製作物件的檔案。

Gemini 3 Deep Think 在 Gemini 應用程式向 Google AI Ultra 訂閱用戶開放使用。同時,Google 首次透過 Gemini API 向特定研究人員、工程師及企業客戶提供 Deep Think。

(圖片來源:Google Blog

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

紫南宮發財金超狂!出金4億返金6億 主委莊秋安:借600塊還300萬傳奇年年上演

鏡報
02

快訊/情人節財神送禮!大樂透1.9億獎落高雄小港 一人獨得變身富翁

三立新聞網
03

金價狂洗三溫暖 大跌後飆漲分析師上看「這價位」

CTWANT
04

大樂透頭獎1注獨得1.9億 今彩539頭獎2注中獎

自由電子報
05

時代的眼淚!Sony宣布全面停產「20年傳奇商品」:未來也不推新機

三立新聞網
06

擴大北京影響力!中國5月起給非洲53國零關稅優待,整片大陸「只有它」被排除

風傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...