請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

可自主運作 30 小時的 AI!Anthropic 發表「最安全」模型 Claude Sonnet 4.5 打敗 OpenAI、Google

TechOrange 科技報橘

更新於 2025年09月30日11:53 • 發布於 2025年09月30日03:50 • 廖紹伶

生成式 AI 競爭加速,AI 模型也進入快速迭代的新階段,Anthropic 繼 5 月推出兩款新 AI 模型 Opus 4 和 Sonnet 4,如今不到 6 個月又推出了新模型 Sonnet 4.5,並宣稱這是目前全球最強的程式設計 AI 模型,在多項測試中擊敗 OpenAI 與 Google。

四大特色一次看

Claude Sonnet 4.5 的最大賣點在於四大特色。首先,它採用混合推理架構(hybrid reasoning),能根據任務難度自動調整模式:面對簡單問題時快速輸出,遇到複雜查詢時則投入更多運算資源,以提升答案品質。

其次,Anthropic 針對開發者推出全新終端介面與工具。包括升級版的 Claude Code 2.0、更直覺的命令列互動、可儲存工作進度的檢查點,以及與 Visual Studio Code 整合的外掛。同時開放 Claude Agent SDK,讓企業能基於 Claude 打造自家 AI 代理人,並透過子代理(subagents)分工並行處理多重任務。

第三,Sonnet 4.5 展現出驚人的長時程自主能力。Anthropic 在實驗中觀察到,模型能持續專注在同一專案超過 30 小時,期間不僅能獨立撰寫應用程式,還能建立資料庫服務、購買網域名稱,甚至執行安全審查。相比前代模型僅能維持 7 小時運作,這代表 AI 工具正逐步跨越長時間推理與持續專案執行的門檻。

最後,值得關注的是 Anthropic 將 Sonnet 4.5 定義為旗下最安全的 AI 模型。該系統接受了廣泛的安全訓練,能顯著降低諂媚(sycophancy)、欺騙、權力慾望與鼓勵妄想等不良傾向,並強化防範提示注入攻擊的能力。Anthropic 甚至將其納入 AI Safety Level 3 框架,針對與化學、生物和核武相關的危險內容輸出設下更嚴格過濾機制。

測試成績全面超越對手

在基準測試上,Claude Sonnet 4.5 交出亮眼成績。在 SWE-bench Verified 編碼測試中,Sonnet 4.5 取得 77.2% 至 82% 的分數,超越 OpenAI GPT-5 Codex(74.5%)與 Google Gemini 2.5 Pro(67.2%)。

在 OSWorld 作業系統操作測試中,Claude Sonnet 4.5 分數達到 61.4%,比前一代 Sonnet 4 的 42.2% 大幅提升,刷新業界紀錄。其他基準如數學推理(AIME 2024)、多語言知識(MMMLU)與金融分析(Vals AI Finance Agent),Sonnet 4.5 也都展現出領先表現。

這些成果讓 Anthropic 有底氣直呼 Sonnet 4.5 是「世界上最強的程式設計模型」。

企業應用版圖擴張

Anthropic 由 OpenAI 前高層創辦,近來持續推進其 AI 模型 Claude 的企業應用布局。強調 Claude 具備安全防護機制(guardrails),能有效降低風險性輸出,因此特別適合在金融、醫療、法律等受監管產業導入。除了對話功能外,Anthropic 也將 Claude 的程式撰寫與資料分析能力作為主打,並鎖定需要跨多種軟體工具協作的團隊,目的是將 Claude 打造成「安全、可控、專業導向」的 AI 助手。

Microsoft 已宣布將 Claude 模型整合進 Microsoft 365 Copilot,提供 Excel、Word 與 PowerPoint 的「Agent Mode」功能,進一步擴大 Anthropic 在商務應用的版圖。

Anthropic 產品長 Mike Krieger 告訴《Reuters》,Anthropic 的目標是高階用戶和商業用戶,而非單純追求話題性。他也強調,該公司關注的是能持續長期任務、可靠的表現,而不是短期的演示。

從短短幾個月內的頻繁更新可見,AI 模型賽局已進入高速迭代階段。然而,根據《Ars Technica》,Gemini 3 傳言即將登場,OpenAI 也不會停下腳步。Sonnet 4.5 能否長期維持優勢,還需要市場與實際應用來驗證。

*本文開放合作夥伴轉載,資料來源:Anthropic《arstechnica》《Engadget》《SiliconANGLE》《Reuters》,首圖來源:Anthropic

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

不只出口晶片 屏東芒果一顆800元賣進日本伊勢丹

中央通訊社
02

張忠謀夫婦被目擊赴美式餐廳用餐 氣色佳

自由電子報
03

日系車真的耐操又省錢?專家點名6車款「連修車師傅都怕」:養護成本驚人

風傳媒
04

台股7檔「抓去關到5/22」 處置名單一次看

EBC 東森新聞
05

台股創高 散戶瘋「無本當沖」 金管會:佔約54%、近5年比重已下降

新頭殼
06

〈美股盤後〉美擊中2艘伊朗籍油輪 英特爾瘋漲超13% 那指標普改寫歷史新高 周線連六紅

anue鉅亨網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...