Anthropic 最強模型 Claude 4 系列登場,可「自主」寫程式 7 小時
Anthropic 首屆開發者大會「Code with Claude」在 5/22 美國舊金山登場,發表了全新 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,兩款模型在程式開發、複雜推理與 AI 代理應用上全面升級。《MIT Technology Review》評論,Anthropic 這次更新代表邁向「真正實用的 AI 代理」的重要一步。
支援即時回應、深度推理,Claude 4 系列有多強?
Opus 4 與 Sonnet 4 均為混合模型,能支援即時回應與深度推理兩種模式。Opus 4 被 Anthropic 稱為其目前最強的 AI 模型,擅長寫程式和解決複雜問題,並支援 AI 代理應用。Opus 4 在 SWE-bench 測試中獲得 72.5%、Terminal-bench 達 43.2% 的成績,Anthropic 表示該模型能長時間執行數千步驟的任務,維持高效能與穩定性。
Anthropic 研究負責人 Dianne Penn 指出,Opus 4 能在電玩遊戲《Pokémon Red》中持續遊玩超過 24 小時並同時撰寫攻略,而前代 Sonnet 3.7 模型僅能執行約 45 分鐘。日本科技公司樂天也已部署 Opus 4,成功讓 Opus 4 在開源專案中自動寫程式近 7 小時。
相較 Opus 4,Sonnet 4 更適用於日常任務,是 Sonnet 3.7 的全面升級版,於 SWE-bench 測出 72.7% 成績。Anthropic 表示,Sonnet 4 兼顧效能與成本,也增加可操縱性,讓使用者更好控制實作。
Claude 強化 AI 代理能力關鍵:任務持久化
Anthropic 表示,Claude 4 模型具備延展思考與工具使用並行執行能力,可在推理過程中動態存取網路搜尋或其他資源,支援工具平行執行。此外,當開發者允許 Claude 存取本地檔案時,Opus 4 能建立「記憶檔案」來儲存關鍵資訊,提升長任務中的上下文記憶與連貫性。《MIT Technology》分析,這樣的記憶模組設計,是 Anthropic 推動代理任務持久化的關鍵突破。
新創 DeepFlow 的 AI 總監 Stefano Albrecht 指出,目前各家 AI 公司正競相開發真正實用的 AI 代理,「AI 代理能在長時間內自主執行任務的能力越強,就越能發揮效益——我(人工)介入的次數越少,它們就越有價值,」他認為 Claude 新模型可並行使用工具的能力很有趣,具有實用特性。
API 全新 4 大功能,加速 AI 代理開發
除了模型,另外值得關注的是 Anthropic 同步推出一系列 API 新功能,包括「程式碼執行工具」讓 Claude 化身數據分析師,在沙盒環境中執行 Python 以產生圖表與分析結果;「MCP connector」能讓使用者無須寫程式即讓 Claude 連接任何遠端模型上下文協定(MCP)伺服器;「Files API」則能簡化檔案上傳與管理流程;「擴充 prompt 快取功能」支援一小時提示記憶。
Anthropic 執行長 Dario Amodei 表示,「我們正在走向一個人類開發者能管理大量 AI 代理的世界,我認為人類的持續地參與對品質控制非常重要。」
Constellation Research 分析師 Holger Mueller 分析,Anthropic 正在將堆疊向上延伸至 PaaS 層,提供更多 MCP 支援與工具,讓開發人員能夠更輕鬆地上傳文件、利用分析庫並提供更長的上下文視窗,以更有效的方式建立 AI 代理。
【推薦閱讀】
◆ 【Google I/O】Gemini、Google 搜尋史上最大升級!可虛擬試穿數十億件衣服、代購票券
*本文部分初稿由 AI 生成,經《TechOrange》編撰,資料來源:Anthropic、《MIT Technology Review》、《TechCrunch》、Constellation,首圖來源:Anthropic。