可自主運作 30 小時的 AI!Anthropic 發表「最安全」模型 Claude Sonnet 4.5 打敗 OpenAI、Google
生成式 AI 競爭加速,AI 模型也進入快速迭代的新階段,Anthropic 繼 5 月推出兩款新 AI 模型 Opus 4 和 Sonnet 4,如今不到 6 個月又推出了新模型 Sonnet 4.5,並宣稱這是目前全球最強的程式設計 AI 模型,在多項測試中擊敗 OpenAI 與 Google。
四大特色一次看
Claude Sonnet 4.5 的最大賣點在於四大特色。首先,它採用混合推理架構(hybrid reasoning),能根據任務難度自動調整模式:面對簡單問題時快速輸出,遇到複雜查詢時則投入更多運算資源,以提升答案品質。
其次,Anthropic 針對開發者推出全新終端介面與工具。包括升級版的 Claude Code 2.0、更直覺的命令列互動、可儲存工作進度的檢查點,以及與 Visual Studio Code 整合的外掛。同時開放 Claude Agent SDK,讓企業能基於 Claude 打造自家 AI 代理人,並透過子代理(subagents)分工並行處理多重任務。
第三,Sonnet 4.5 展現出驚人的長時程自主能力。Anthropic 在實驗中觀察到,模型能持續專注在同一專案超過 30 小時,期間不僅能獨立撰寫應用程式,還能建立資料庫服務、購買網域名稱,甚至執行安全審查。相比前代模型僅能維持 7 小時運作,這代表 AI 工具正逐步跨越長時間推理與持續專案執行的門檻。
最後,值得關注的是 Anthropic 將 Sonnet 4.5 定義為旗下最安全的 AI 模型。該系統接受了廣泛的安全訓練,能顯著降低諂媚(sycophancy)、欺騙、權力慾望與鼓勵妄想等不良傾向,並強化防範提示注入攻擊的能力。Anthropic 甚至將其納入 AI Safety Level 3 框架,針對與化學、生物和核武相關的危險內容輸出設下更嚴格過濾機制。
測試成績全面超越對手
在基準測試上,Claude Sonnet 4.5 交出亮眼成績。在 SWE-bench Verified 編碼測試中,Sonnet 4.5 取得 77.2% 至 82% 的分數,超越 OpenAI GPT-5 Codex(74.5%)與 Google Gemini 2.5 Pro(67.2%)。
在 OSWorld 作業系統操作測試中,Claude Sonnet 4.5 分數達到 61.4%,比前一代 Sonnet 4 的 42.2% 大幅提升,刷新業界紀錄。其他基準如數學推理(AIME 2024)、多語言知識(MMMLU)與金融分析(Vals AI Finance Agent),Sonnet 4.5 也都展現出領先表現。
這些成果讓 Anthropic 有底氣直呼 Sonnet 4.5 是「世界上最強的程式設計模型」。
企業應用版圖擴張
Anthropic 由 OpenAI 前高層創辦,近來持續推進其 AI 模型 Claude 的企業應用布局。強調 Claude 具備安全防護機制(guardrails),能有效降低風險性輸出,因此特別適合在金融、醫療、法律等受監管產業導入。除了對話功能外,Anthropic 也將 Claude 的程式撰寫與資料分析能力作為主打,並鎖定需要跨多種軟體工具協作的團隊,目的是將 Claude 打造成「安全、可控、專業導向」的 AI 助手。
Microsoft 已宣布將 Claude 模型整合進 Microsoft 365 Copilot,提供 Excel、Word 與 PowerPoint 的「Agent Mode」功能,進一步擴大 Anthropic 在商務應用的版圖。
Anthropic 產品長 Mike Krieger 告訴《Reuters》,Anthropic 的目標是高階用戶和商業用戶,而非單純追求話題性。他也強調,該公司關注的是能持續長期任務、可靠的表現,而不是短期的演示。
從短短幾個月內的頻繁更新可見,AI 模型賽局已進入高速迭代階段。然而,根據《Ars Technica》,Gemini 3 傳言即將登場,OpenAI 也不會停下腳步。Sonnet 4.5 能否長期維持優勢,還需要市場與實際應用來驗證。
*本文開放合作夥伴轉載,資料來源:Anthropic、《arstechnica》、《Engadget》、《SiliconANGLE》、《Reuters》,首圖來源:Anthropic