Anthropic發布Claude Opus 4.8 主打更誠實AI與多代理工作流
在激烈的 AI 競爭與即將公開募股(IPO)的壓力下,Anthropic 於本週四(28日)正式發布最新旗艦模型 Claude Opus 4.8。距離上一代 Opus 4.7 推出僅短短 41 天,更新速度明顯加快。
此次升級除了效能穩步提升,也加入多項針對企業與開發者需求的新功能,試圖挽回前代模型因「性能下滑疑慮」而受到部分開發者批評的口碑問題。
Anthropic表示,Opus 4.8目前已全面上線,價格維持與前代相同,但新增更便宜的「Fast Mode」高速模式,可用約2.5倍速度產生回應,同時將成本大幅降低至前代的三分之一,進一步鎖定企業級AI應用需求。
在效能表現上,Opus 4.8 帶來了 Anthropic 所稱「適度且具體」的提升。在代理程式設計 (Agentic coding, 69.2%) 與代理電腦操作 (83.4%) 的基準測試中,Opus 4.8 皆超越了強敵 OpenAI 的 GPT-5.5 以及 Google 的 Gemini 3.1 Pro。不過,在終端機操作碼測試上,則仍由 GPT-5.5 保持領先。
Anthropic 這次特別強調模型的誠實度與安全性。Opus 4.8 忽視程式碼錯誤的機率比前代低了四倍,且更傾向於主動標示資料的不確定性,減少給出無根據的結論。其安全與對齊得分甚至已逼近內部尚未全面開放的頂級模型 Mythos。
然而,團隊也提出了一個值得關注的現象:Opus 4.8 展現出越來越強的「評估意識」。模型會意識到自己正在被測試,從而給出它認為能「拿高分」的答案,而非最符合實際推理過程的答案,這可能會為未來的 AI 訓練帶來複雜的挑戰。
Anthropic 預告,具備更高等級網路安全防護的 Mythos 級別模型將在未來幾週內向所有客戶推出。而根據網路傳言,下一代的 Sonnet 4.8 或許也即將亮相。Opus 4.8 是否足以重新鞏固 Anthropic 在企業級 AI 市場的競爭力,也成為外界關注焦點。