請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

比 Gemini 3 Pro 還強!Anthropic 發表 Claude Opus 4.5,更便宜、無限聊天等 5 大亮點一次看

TechOrange 科技報橘

更新於 11月25日12:08 • 發布於 11月25日04:08 • 廖紹伶

Anthropic 再次提高了 AI 競賽的標準,宣布推出 Claude Opus 4.5,這是該公司 2 個月內推出的第 3 個 AI 模型,距離 Google 推出 Gemini 3 模型僅一週。這既是 AI 產業持續快速發展的最新例證,也加劇 Anthropic 與對手 OpenAI、Google 的競爭。

「對我們來說,這是世界上最聰明的模型,」Anthropic 的開發者關係主管 Alex Albert 告訴《Business Insider》。究竟這款新模型特色是什麼?以下亮點整理:

亮點 1:性能表現超越 GPT-5.1 與 Gemini 3 Pro

Claude Opus 4.5 在 Anthropic 官方公布的 SWE-Bench Verified 測試中,取得 80.9% 的準確率,是全球第一個突破 80% 的模型,領先於 OpenAI 的 GPT-5.1 Codex Max(77.9%)、Anthropic 的 Sonnet 4.5(77.2%)、Google 的 Gemini 3 Pro(76.2%)。

圖片來源:Anthropic。

除了基準測試,根據《VentureBeat》報導,開發者與早期測試人員也指出,Opus 4.5 在處理真實世界任務時展現了更佳的判斷力與直覺,彷彿模型「真的懂了」(The model just kind of gets it),能夠更好地理解任務的優先順序與脈絡。

亮點 2:在 Anthropic 內部工程測驗擊敗「所有」人類

更值得關注的,或許是 Opus 4.5 在 Anthropic 內部工程評估中的表現。這項針對性能工程師候選人的兩小時限時測驗,目的在評估技術能力與判斷力。在使用「平行測試時間計算」(parallel test-time compute)技術下,Opus 4.5 的得分超越了該公司歷史上所有參加過測試的人類求職者。

即便是沒有時間限制的情況下,該模型在 Claude Code 環境中的表現也與史上最佳的人類候選人旗鼓相當。儘管 Anthropic 承認這項測試無法衡量協作與溝通等軟實力,但這項結果無疑對「AI 將如何重塑白領職業」提出了強而有力的訊號。Albert 直言,這是一個值得密切關注的重要跡象,顯示 AI 在工程領域的進展可能已領先於其他領域。

亮點 3:價格大砍三分之二、效率顯著提升

Anthropic 對 Opus 4.5 也採取了激進的定價策略。新模型的價格為每百萬輸入 token 5 美元、每百萬輸出 token 25 美元,相較於前一代 Opus 4.1 的 15 美元與 75 美元,降幅高達三分之二(約 66%)。

除了降價,效率的提升也是一大亮點。Anthropic 表示,在中等努力程度下,Opus 4.5 能以比 Sonnet 4.5 少 76% 的輸出 token 用量達到相同的最佳表現;在最高努力程度下,性能提升了 4.3 個百分點,token 用量卻仍減少了 48%。

根據《VentureBeat》,寫程式平台 Replit 與 GitHub 的高層皆證實了這一點,指出 Opus 4.5 在解決相同問題時消耗的 token 更少,這對大規模應用來說至關重要。

亮點 4:具備「自我演化」能力的 AI 代理

Opus 4.5 的另一個突破性能力是「自我改進代理」(self-improving agents)。

日本電商巨頭樂天(Rakuten)在測試中發現,他們的 AI 代理能夠自主優化能力,在 4 次迭代內達到峰值性能,而其他模型即便經過 10 次迭代也無法企及。

這並非指模型會自行更改權重,而是它能像工程師一樣,反覆修正解決問題的路徑與工具,實現「技能優化」。

這種能力不僅限於寫程式,在製作專業文件、試算表與簡報方面也展現了性能提升。金融建模公司 Fundamental Research Labs 表示,其內部評估的準確率提高了 20%,複雜任務變得觸手可及。

亮點 5:無限聊天、深度整合 Excel、Chrome,鞏固企業市佔

針對企業用戶,Anthropic 推出了一系列實用功能。最受矚目的是「無限聊天」(infinite chats),該功能消除了上下文窗口的限制。當對話變長時,系統會自動將早期的對話內容進行壓縮與摘要,讓使用者感覺擁有無限的上下文記憶,不再被迫中斷對話。

此外,Claude for Excel 正式向 Max、Team 與 Enterprise 用戶開放,支援樞紐分析表、圖表與檔案上傳,號稱能產出分析師等級的報表。Claude for Chrome 擴充功能也全面開放給 Max 用戶,讓 AI 能跨瀏覽器分頁執行任務。

這些更新皆顯示 Anthropic 正積極將強大的 AI 能力整合進 Chrome 工作流程與 Excel 等日常生產力工具中,試圖在企業 AI 市場中鞏固其領先地位。

《Business Insider》分析,Anthropic 的 Claude 系列主要針對企業用戶設計,並引述 Menlo Ventures 今年 7 月數據指出,Anthropic 目前在企業 AI 採用市場中居領先地位,市占率達 32%;OpenAI 則以 25% 排名第二,相較兩年前大致減半;Google 以 20% 排名第三,Meta 以 9% 位居第四。

隨著 Sonnet 與 Haiku 近期的更新,Opus 的推出正式完成 Claude 4.5 系列。Opus 模型主打進階推理與複雜問題解決,而 Sonnet 與 Haiku 則著重速度與效能。

*本文開放合作夥伴轉載,資料來源:《CNBC》《VentureBeat》《TechCrunch》《Business Insider》Anthropic,首圖來源:Anthropic

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

黃仁勳曝輝達「生死一瞬間」1通電話求助張忠謀獲信任

EBC 東森新聞
02

台灣錢淹腳目!身價破「300億富豪」人數曝 超車日韓法等先進國

三立新聞網
03

都更最速傳說1/1坪換1.5坪外加一個車位地主還不滿足 他果決切割 住戶哭求他再等等

鏡週刊
04

電梯一進去就露餡 ! CEO揭密:先按哪個鍵 看出你的時間管理力

自由電子報
05

保險藏「隱形陷阱」! 他曝很多人沒注意「關鍵一點」:保單會失效

鏡報
06

ETF界霸主!規模快破兆 0050成分股大調整「4上4下」

三立新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...