Anthropic 在 2/25 發表全新 AI 模型 Claude 3.7 Sonnet,表示這是市場上第一款「混合 AI 推理模型」,讓使用者可以決定 AI 要「思考」多長的時間才回答問題,也可以選擇是否啟用 AI 的推理能力。
Claude 3.7 Sonnet 這款混合模型的獨特之處在於,把推理能力,和能及時給出答案的傳統模型相互結合。
《TechCrunch》報導,這項新技術代表 Anthropic 希望簡化使用者體驗──目前多數 AI 聊天機器人都有模型選擇器列表,使用者必須在成本和能力各異的多種選項中做出選擇,但 Anthropic 希望使用者不必考慮這些——理想情況下,一個模型就能完成所有工作。
Anthropic:推理、規劃和自我糾正不是分開的能力
Anthropic 產品和研究主管 Dianne Penn 向《VentureBeat》表示:「我們相信推理是 AI 的核心,而不是需要單獨付費的模型才能使用的功能。」
他以人類的大腦比喻,AI 應該同時處理快速回應和複雜思考──它應該立即回答像「現在幾點了?」的簡單問題,也需要更多時間處理複雜任務,像是計劃為期 2 週的義大利之旅並同時滿足無麩質飲食需求。
「我們不認為推理、規劃和自我糾正是分開的能力,」他補充,「理想情況下,模型本身應該識別什麼時候需要更多思考而自行調整,而不是要求使用者明確選擇不同的推理模式。」
報導分析,Anthropic 的混合方法既代表了技術的進步,也代表了策略──OpenAI 為不同功能維護單獨的模型,DeepSeek 專注於成本效益,而 Anthropic 則追求能夠處理常規任務和複雜推理的統一系統,這可以重塑企業部署 AI 的方式,並消除同時處理多個專門模型的需求。
Anthropic「最聰明」AI 的測試表現如何?
Anthropic 稱該模型是公司迄今為止最聰明的 AI 模型。在基準測試中,Claude 3.7 Sonnet 展現了令人印象深刻的性能。在延長思考模式下,它在研究生級別的推理任務上達到 78.2% 的準確率,挑戰了 OpenAI 的最新模型,並超越了 DeepSeek-R1。
在現實世界應用中,該模型在零售相關工具使用上得分 81.2%,在指令遵循方面顯著進展(93.2%)——這些是競爭對手一直在努力或還沒公佈結果的領域。
在更專業的測試中,測量實際編碼任務的 SWE-Bench 測試中,Claude 3.7 Sonnet 的準確率為 62.3%,而 OpenAI 的 o3-mini 模型得分為 49.3%。在另一項衡量 AI 模型與模擬用戶和外部 API 在零售環境中互動能力的 TAU-Bench 測試中,Claude 3.7 Sonnet 得分 81.2%,而 OpenAI 的 o1 模型得分為 73.5%。
Claude 3.7 Sonnet 每百萬輸入 token 收費 3 美元,可以輸入約 75 萬個單詞,比整個《魔戒》系列還多的文字,每百萬輸出 token 收費 15 美元。
雖然它比 OpenAI 的 o3-mini(每百萬輸入 token 1.10 美元/每百萬輸出 token 4.40 美元)和 DeepSeek 的 R1(每百萬輸入 token 0.55 美元/每百萬輸出 token 2.19 美元)更貴。不過嚴格來說,o3-mini 和 R1 只是推理模型,不像 Claude 3.7 Sonnet 是混合模型。
OpenAI 也將推出混合模型,誰是最後贏家?
Anthropic 的產品和研究負責人 Dianne Penn 表示,Anthropic 的最終目標是希望 Claude 能夠自行確定應該對問題「思考」多長時間,而不需要用戶提前選擇控制。
在 AI 大戰下,各個 AI 巨頭正在迅速推出新的 AI 模型,而 Anthropic 歷來採取更有條理、更注重安全的方法,但外媒觀察,這一次,Anthropic 希望佔據領先地位。
然而,這種領先能持續多久仍是個問題。日前 OpenAI 執行長奧特曼即表示,它們可能即將在「幾個月內」發表自己的混合 AI 模型。
免費報名 3/17-3/21【NVIDIA GTC 2025】AI 大會
📢 活動辦法:成功報名 NVIDIA GTC 2025 並於 3/17-3/21 觀看任一場 GTC 線上演講,私訊 TechOrange 粉絲專頁提供報名時的註冊名稱、公司與信箱,即可抽 NVIDIA® GeForce RTX
【推薦閱讀】
◆ AI 真的知道怎麼推理嗎──最佳解答為何是 AI 擁有「jagged intelligence」?
*本文初稿為 AI 生成,資料來源:《TechCrunch》、《CNBC》、Anthropic、《VentureBeat》,首圖來源:。