可自主運作 30 小時的 AI！Anthropic 發表「最安全」模型 Claude Sonnet 4.5 打敗 OpenAI、Google

生成式 AI 競爭加速，AI 模型也進入快速迭代的新階段，Anthropic 繼 5 月推出兩款新 AI 模型 Opus 4 和 Sonnet 4，如今不到 6 個月又推出了新模型 Sonnet 4.5，並宣稱這是目前全球最強的程式設計 AI 模型，在多項測試中擊敗 OpenAI 與 Google。

四大特色一次看

Claude Sonnet 4.5 的最大賣點在於四大特色。首先，它採用混合推理架構（hybrid reasoning），能根據任務難度自動調整模式：面對簡單問題時快速輸出，遇到複雜查詢時則投入更多運算資源，以提升答案品質。

其次，Anthropic 針對開發者推出全新終端介面與工具。包括升級版的 Claude Code 2.0、更直覺的命令列互動、可儲存工作進度的檢查點，以及與 Visual Studio Code 整合的外掛。同時開放 Claude Agent SDK，讓企業能基於 Claude 打造自家 AI 代理人，並透過子代理（subagents）分工並行處理多重任務。

第三，Sonnet 4.5 展現出驚人的長時程自主能力。Anthropic 在實驗中觀察到，模型能持續專注在同一專案超過 30 小時，期間不僅能獨立撰寫應用程式，還能建立資料庫服務、購買網域名稱，甚至執行安全審查。相比前代模型僅能維持 7 小時運作，這代表 AI 工具正逐步跨越長時間推理與持續專案執行的門檻。

最後，值得關注的是 Anthropic 將 Sonnet 4.5 定義為旗下最安全的 AI 模型。該系統接受了廣泛的安全訓練，能顯著降低諂媚（sycophancy）、欺騙、權力慾望與鼓勵妄想等不良傾向，並強化防範提示注入攻擊的能力。Anthropic 甚至將其納入 AI Safety Level 3 框架，針對與化學、生物和核武相關的危險內容輸出設下更嚴格過濾機制。

測試成績全面超越對手

在基準測試上，Claude Sonnet 4.5 交出亮眼成績。在 SWE-bench Verified 編碼測試中，Sonnet 4.5 取得 77.2% 至 82% 的分數，超越 OpenAI GPT-5 Codex（74.5%）與 Google Gemini 2.5 Pro（67.2%）。

在 OSWorld 作業系統操作測試中，Claude Sonnet 4.5 分數達到 61.4%，比前一代 Sonnet 4 的 42.2% 大幅提升，刷新業界紀錄。其他基準如數學推理（AIME 2024）、多語言知識（MMMLU）與金融分析（Vals AI Finance Agent），Sonnet 4.5 也都展現出領先表現。

這些成果讓 Anthropic 有底氣直呼 Sonnet 4.5 是「世界上最強的程式設計模型」。

企業應用版圖擴張

Anthropic 由 OpenAI 前高層創辦，近來持續推進其 AI 模型 Claude 的企業應用布局。強調 Claude 具備安全防護機制（guardrails），能有效降低風險性輸出，因此特別適合在金融、醫療、法律等受監管產業導入。除了對話功能外，Anthropic 也將 Claude 的程式撰寫與資料分析能力作為主打，並鎖定需要跨多種軟體工具協作的團隊，目的是將 Claude 打造成「安全、可控、專業導向」的 AI 助手。

Microsoft 已宣布將 Claude 模型整合進 Microsoft 365 Copilot，提供 Excel、Word 與 PowerPoint 的「Agent Mode」功能，進一步擴大 Anthropic 在商務應用的版圖。

Anthropic 產品長 Mike Krieger 告訴《Reuters》，Anthropic 的目標是高階用戶和商業用戶，而非單純追求話題性。他也強調，該公司關注的是能持續長期任務、可靠的表現，而不是短期的演示。

從短短幾個月內的頻繁更新可見，AI 模型賽局已進入高速迭代階段。然而，根據《Ars Technica》，Gemini 3 傳言即將登場，OpenAI 也不會停下腳步。Sonnet 4.5 能否長期維持優勢，還需要市場與實際應用來驗證。

＊本文開放合作夥伴轉載，資料來源：Anthropic、《arstechnica》、《Engadget》、《SiliconANGLE》、《Reuters》，首圖來源：Anthropic

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

四大特色一次看

測試成績全面超越對手

企業應用版圖擴張

更多理財相關文章

黃仁勳預告：台供鏈下半年會很忙

投資人注意！台股這1檔爆停牌遭勒令下市

蘇姿丰狂嗑台灣小吃　自拍照「大鑽戒」成焦點

股票賺翻！工程師提早退休　3年後竟靠外送賺錢過活…真實原因曝光

黃仁勳突襲提前抵台！兩週行程公開鬆口將會面2人

蘇姿丰訪台狂PO照嘗小吃樂開懷手上鑽戒超閃意外成焦點

請更新您的瀏覽器啟用Javascript

可自主運作 30 小時的 AI！Anthropic 發表「最安全」模型 Claude Sonnet 4.5 打敗 OpenAI、Google

TechOrange 科技報橘

四大特色一次看

測試成績全面超越對手

企業應用版圖擴張

更多理財相關文章

黃仁勳預告：台供鏈下半年會很忙

投資人注意！台股這1檔爆停牌 遭勒令下市

蘇姿丰狂嗑台灣小吃 自拍照「大鑽戒」成焦點

股票賺翻！工程師提早退休 3年後竟靠外送賺錢過活…真實原因曝光

黃仁勳突襲提前抵台！兩週行程公開 鬆口將會面2人

蘇姿丰訪台狂PO照 嘗小吃樂開懷 手上鑽戒超閃意外成焦點

請更新您的瀏覽器

投資人注意！台股這1檔爆停牌遭勒令下市

蘇姿丰狂嗑台灣小吃　自拍照「大鑽戒」成焦點

股票賺翻！工程師提早退休　3年後竟靠外送賺錢過活…真實原因曝光

黃仁勳突襲提前抵台！兩週行程公開鬆口將會面2人

蘇姿丰訪台狂PO照嘗小吃樂開懷手上鑽戒超閃意外成焦點