比 Gemini 3 Pro 還強!Anthropic 發表 Claude Opus 4.5,更便宜、無限聊天等 5 大亮點一次看
Anthropic 再次提高了 AI 競賽的標準,宣布推出 Claude Opus 4.5,這是該公司 2 個月內推出的第 3 個 AI 模型,距離 Google 推出 Gemini 3 模型僅一週。這既是 AI 產業持續快速發展的最新例證,也加劇 Anthropic 與對手 OpenAI、Google 的競爭。
「對我們來說,這是世界上最聰明的模型,」Anthropic 的開發者關係主管 Alex Albert 告訴《Business Insider》。究竟這款新模型特色是什麼?以下亮點整理:
亮點 1:性能表現超越 GPT-5.1 與 Gemini 3 Pro
Claude Opus 4.5 在 Anthropic 官方公布的 SWE-Bench Verified 測試中,取得 80.9% 的準確率,是全球第一個突破 80% 的模型,領先於 OpenAI 的 GPT-5.1 Codex Max(77.9%)、Anthropic 的 Sonnet 4.5(77.2%)、Google 的 Gemini 3 Pro(76.2%)。
除了基準測試,根據《VentureBeat》報導,開發者與早期測試人員也指出,Opus 4.5 在處理真實世界任務時展現了更佳的判斷力與直覺,彷彿模型「真的懂了」(The model just kind of gets it),能夠更好地理解任務的優先順序與脈絡。
亮點 2:在 Anthropic 內部工程測驗擊敗「所有」人類
更值得關注的,或許是 Opus 4.5 在 Anthropic 內部工程評估中的表現。這項針對性能工程師候選人的兩小時限時測驗,目的在評估技術能力與判斷力。在使用「平行測試時間計算」(parallel test-time compute)技術下,Opus 4.5 的得分超越了該公司歷史上所有參加過測試的人類求職者。
即便是沒有時間限制的情況下,該模型在 Claude Code 環境中的表現也與史上最佳的人類候選人旗鼓相當。儘管 Anthropic 承認這項測試無法衡量協作與溝通等軟實力,但這項結果無疑對「AI 將如何重塑白領職業」提出了強而有力的訊號。Albert 直言,這是一個值得密切關注的重要跡象,顯示 AI 在工程領域的進展可能已領先於其他領域。
亮點 3:價格大砍三分之二、效率顯著提升
Anthropic 對 Opus 4.5 也採取了激進的定價策略。新模型的價格為每百萬輸入 token 5 美元、每百萬輸出 token 25 美元,相較於前一代 Opus 4.1 的 15 美元與 75 美元,降幅高達三分之二(約 66%)。
除了降價,效率的提升也是一大亮點。Anthropic 表示,在中等努力程度下,Opus 4.5 能以比 Sonnet 4.5 少 76% 的輸出 token 用量達到相同的最佳表現;在最高努力程度下,性能提升了 4.3 個百分點,token 用量卻仍減少了 48%。
根據《VentureBeat》,寫程式平台 Replit 與 GitHub 的高層皆證實了這一點,指出 Opus 4.5 在解決相同問題時消耗的 token 更少,這對大規模應用來說至關重要。
亮點 4:具備「自我演化」能力的 AI 代理
Opus 4.5 的另一個突破性能力是「自我改進代理」(self-improving agents)。
日本電商巨頭樂天(Rakuten)在測試中發現,他們的 AI 代理能夠自主優化能力,在 4 次迭代內達到峰值性能,而其他模型即便經過 10 次迭代也無法企及。
這並非指模型會自行更改權重,而是它能像工程師一樣,反覆修正解決問題的路徑與工具,實現「技能優化」。
這種能力不僅限於寫程式,在製作專業文件、試算表與簡報方面也展現了性能提升。金融建模公司 Fundamental Research Labs 表示,其內部評估的準確率提高了 20%,複雜任務變得觸手可及。
亮點 5:無限聊天、深度整合 Excel、Chrome,鞏固企業市佔
針對企業用戶,Anthropic 推出了一系列實用功能。最受矚目的是「無限聊天」(infinite chats),該功能消除了上下文窗口的限制。當對話變長時,系統會自動將早期的對話內容進行壓縮與摘要,讓使用者感覺擁有無限的上下文記憶,不再被迫中斷對話。
此外,Claude for Excel 正式向 Max、Team 與 Enterprise 用戶開放,支援樞紐分析表、圖表與檔案上傳,號稱能產出分析師等級的報表。Claude for Chrome 擴充功能也全面開放給 Max 用戶,讓 AI 能跨瀏覽器分頁執行任務。
這些更新皆顯示 Anthropic 正積極將強大的 AI 能力整合進 Chrome 工作流程與 Excel 等日常生產力工具中,試圖在企業 AI 市場中鞏固其領先地位。
《Business Insider》分析,Anthropic 的 Claude 系列主要針對企業用戶設計,並引述 Menlo Ventures 今年 7 月數據指出,Anthropic 目前在企業 AI 採用市場中居領先地位,市占率達 32%;OpenAI 則以 25% 排名第二,相較兩年前大致減半;Google 以 20% 排名第三,Meta 以 9% 位居第四。
隨著 Sonnet 與 Haiku 近期的更新,Opus 的推出正式完成 Claude 4.5 系列。Opus 模型主打進階推理與複雜問題解決,而 Sonnet 與 Haiku 則著重速度與效能。
*本文開放合作夥伴轉載,資料來源:《CNBC》、《VentureBeat》、《TechCrunch》、《Business Insider》、Anthropic,首圖來源:Anthropic