請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI之戰白熱化!Anthropic推出Claude Opus 4.5:程式、代理、電腦操作,性能碾壓Gemini 3 Pro?

數位時代

更新於 2025年11月25日03:59 • 發布於 2025年11月25日03:50

重點一:Anthropic 推出 Claude Opus 4.5,宣稱為目前最強,在程式、代理與電腦操作領先。

重點二:模型新增可調整的「effort參數」,趕時間就選低 effort,追求最強效能就選高 effort。讓開發者能用更少資源,跑更長、更複雜的流程,還能依需求調整「思考力」與「成本」。

重點三:Claude Opus 4.5的輸入/輸出代幣降價約三分之二。

Anthropic 宣布推出新一代大型模型 Claude Opus 4.5,定位為其最旗艦版本,並表示在「程式開發、代理(agentic workflows)與電腦使用」方面具備領先能力。

官方指出,Opus 4.5 在多項真實世界工程測試表現出色,包含 SWE-bench 類型的評測,且在多語言與長程推理上有明顯進步。

實務面上,Opus 4.5 在多家早期客戶測試中被評為「用更少 Token 完成更難任務」,包含 GitHub Copilot 等重度代理場景、跨程式碼庫重構、長時間自主編碼與長篇故事生成等使用情境。

Anthropic指出,Opus 4.5的軟體工程能力堪稱當今最強。

目前,模型已在 Anthropic 各管道上線,包括App、API 與三大雲平台,開發者已可使用「claude-opus-4-5-20251101」。

值得注意的是,API定價從前代大幅下修至每百萬輸入代幣 5 美元(約新台幣 160 元)、每百萬輸出代幣 25 美元(約新台幣785元),相較 Claude Opus 4.1 的 15 美元與 75 美元降幅約三分之二,使先進AI能力更具可及性。

除了模型本身,Anthropic 同步更新 Claude Developer Platform、Claude Code 與消費端 App,強調更長時程代理、跨 Excel、Chrome 與桌面環境的整合,以及聊天在長對話中的自動摘要銜接,減少斷點。

「Effort參數」是什麼?

Opus 4.5 的核心變化之一是效率與控制。Anthropic引入「Effort參數」,允許開發者在「速度與成本」與「能力最大化」之間調整,搭配「Context Compaction(情境壓縮)」與「Advanced Tool Use(進階工具使用)」等平台能力,使長任務更穩定、探查更少、推理更精煉。

官方數據顯示, 在中等 Effort 下,Opus 4.5 可用顯著更少的輸出 Token 達到與 Sonnet 4.5 相近或更好的分數;在最高 Effort 下,仍能以更少 Token 超越 Sonnet 4.5。

平台也強化「Context Management(情境管理)」與「Memory Capabilities(記憶能力)」,並支持多子代理協作,讓複雜多階段任務更可控、可組合。

在產品面上,Claude Code 的 Plan Mode 更精準,會先提出澄清問題並建立可編輯的 plan.md,再執行;同時提供桌面版以並行多個本地/遠端 Session。

消費端則開放 Claude for Chrome 給 Max 用戶,並擴大 Claude for Excel 的測試名單至 Max、Team、Enterprise。而在資費與配額方面,Opus 4.5 取消專屬上限(原本有配額限制),力求可作為日常主力。

Opus 4.5進化!代理、長文能力都更強

Anthropic在系統卡中稱 Opus 4.5 是其迄今「對齊(Alignment)」最穩健的模型,並強化對「提示注入(Prompt Injection)」的抵抗力。公司表示在與第三方強攻擊集的評測中,Opus 4.5 比其他前沿模型更不易被駭客欺騙,對企業關注的安全使用情境是一項關鍵提升。

官方亦強調 Opus 4.5 的代理能力。指出在其中一個測試情境中,模型必須扮演航空公司服務代理,協助一位焦慮的客戶。該基準(τ2-bench)預期模型會拒絕修改基本經濟艙預訂,因為航空公司不允許更改該艙等的機票。然而,Opus 4.5 找到了一個富有洞察力(且合法)的方法來解決問題:先升級艙等,然後再修改航班。

Anthropic指出,Opus 4.5在各項能力都勝過當前模型。

至於在典型業務場景的具體改善,則如下:

  • Excel 自動化:讀取多表、交叉引用、生成樞紐與圖表,對錯誤資料有更好的容錯與修正建議;財務模型可維持單位、期間與假設一致。
  • 金融建模:現金流、比率分析、情境測試與敏感度分析更可靠;能追蹤假設來源並對不一致的前提提出更正。
  • 企業級多步任務:跨文件檢索→工具呼叫→彙整→產出決策稿的長流程更少卡住;在長達 30 分鐘的自主編碼與流程協調裡,失誤率下降、步驟更精簡。

官方也強調,Opus 4.5 在長內容生成的穩定性更強力。例如10~15 頁章節,在段落結構、角色與設定的一致性更好;能維持主線邏輯與前後呼應,不易出現前後矛盾。而若生成事實型長文,Opus 4.5 可在長上下文中持續引用同一套資料與定義,較少遺忘或自相矛盾。

總體而言,Opus 4.5 不僅是能力提升,更是讓開發者能以可調節的成本/能力曲線構建更長、更可靠的代理系統。

延伸閱讀:哪一款AI最可靠?研究揭Claude家族最老實:為何對LLM來說,坦承無知比「已讀亂回」更難?

資料來源:Anthropicventurebeat

本文初稿為AI編撰,整理.編輯/ 李先泰

延伸閱讀

零售搞AI,除了AI客服還能幹嘛?Target除了讓機器讀懂什麼是「可愛」,還實際應用在3大層面
新新併第一彈!台新投信正式整併新光投信,如何靠3大策略取得「兆元俱樂部」門票?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

預售市場大失血!全台總銷年減1.4 兆 「這一都」4區淪為重災區

太報
02

鴻海去年營收首破8兆元創新高 今年首季不看淡

中央通訊社
03

台股大漲755點攻至三萬點 誰買的? 外資今賣超76億元

太報
04

報酬率最高近9成!本週4檔申購抽中賺近10萬

NOWNEWS今日新聞
05

台股衝破3萬點 阮清華談國安基金動向退場前不賣股

中央通訊社
06

台股站上3萬點!傳言國安基金壓盤不讓漲太高?操盤手說話了

太報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...