混合推理模型時代來臨！Anthropic 推 Claude 3.7 Sonnet「可調整」思考時間

Anthropic 在 2/25 發表全新 AI 模型 Claude 3.7 Sonnet，表示這是市場上第一款「混合 AI 推理模型」，讓使用者可以決定 AI 要「思考」多長的時間才回答問題，也可以選擇是否啟用 AI 的推理能力。

Claude 3.7 Sonnet 這款混合模型的獨特之處在於，把推理能力，和能及時給出答案的傳統模型相互結合。

《TechCrunch》報導，這項新技術代表 Anthropic 希望簡化使用者體驗──目前多數 AI 聊天機器人都有模型選擇器列表，使用者必須在成本和能力各異的多種選項中做出選擇，但 Anthropic 希望使用者不必考慮這些——理想情況下，一個模型就能完成所有工作。

Anthropic：推理、規劃和自我糾正不是分開的能力

Anthropic 產品和研究主管 Dianne Penn 向《VentureBeat》表示：「我們相信推理是 AI 的核心，而不是需要單獨付費的模型才能使用的功能。」

他以人類的大腦比喻，AI 應該同時處理快速回應和複雜思考──它應該立即回答像「現在幾點了？」的簡單問題，也需要更多時間處理複雜任務，像是計劃為期 2 週的義大利之旅並同時滿足無麩質飲食需求。

「我們不認為推理、規劃和自我糾正是分開的能力，」他補充，「理想情況下，模型本身應該識別什麼時候需要更多思考而自行調整，而不是要求使用者明確選擇不同的推理模式。」

報導分析，Anthropic 的混合方法既代表了技術的進步，也代表了策略──OpenAI 為不同功能維護單獨的模型，DeepSeek 專注於成本效益，而 Anthropic 則追求能夠處理常規任務和複雜推理的統一系統，這可以重塑企業部署 AI 的方式，並消除同時處理多個專門模型的需求。

Anthropic「最聰明」AI 的測試表現如何？

Anthropic 稱該模型是公司迄今為止最聰明的 AI 模型。在基準測試中，Claude 3.7 Sonnet 展現了令人印象深刻的性能。在延長思考模式下，它在研究生級別的推理任務上達到 78.2% 的準確率，挑戰了 OpenAI 的最新模型，並超越了 DeepSeek-R1。

在現實世界應用中，該模型在零售相關工具使用上得分 81.2%，在指令遵循方面顯著進展（93.2%）——這些是競爭對手一直在努力或還沒公佈結果的領域。

在更專業的測試中，測量實際編碼任務的 SWE-Bench 測試中，Claude 3.7 Sonnet 的準確率為 62.3%，而 OpenAI 的 o3-mini 模型得分為 49.3%。在另一項衡量 AI 模型與模擬用戶和外部 API 在零售環境中互動能力的 TAU-Bench 測試中，Claude 3.7 Sonnet 得分 81.2%，而 OpenAI 的 o1 模型得分為 73.5%。

Claude 3.7 Sonnet 每百萬輸入 token 收費 3 美元，可以輸入約 75 萬個單詞，比整個《魔戒》系列還多的文字，每百萬輸出 token 收費 15 美元。

雖然它比 OpenAI 的 o3-mini（每百萬輸入 token 1.10 美元/每百萬輸出 token 4.40 美元）和 DeepSeek 的 R1（每百萬輸入 token 0.55 美元/每百萬輸出 token 2.19 美元）更貴。不過嚴格來說，o3-mini 和 R1 只是推理模型，不像 Claude 3.7 Sonnet 是混合模型。

OpenAI 也將推出混合模型，誰是最後贏家？

Anthropic 的產品和研究負責人 Dianne Penn 表示，Anthropic 的最終目標是希望 Claude 能夠自行確定應該對問題「思考」多長時間，而不需要用戶提前選擇控制。

在 AI 大戰下，各個 AI 巨頭正在迅速推出新的 AI 模型，而 Anthropic 歷來採取更有條理、更注重安全的方法，但外媒觀察，這一次，Anthropic 希望佔據領先地位。

然而，這種領先能持續多久仍是個問題。日前 OpenAI 執行長奧特曼即表示，它們可能即將在「幾個月內」發表自己的混合 AI 模型。

免費報名 3/17-3/21【NVIDIA GTC 2025】AI 大會

📢 活動辦法：成功報名 NVIDIA GTC 2025 並於 3/17-3/21 觀看任一場 GTC 線上演講，私訊 TechOrange 粉絲專頁提供報名時的註冊名稱、公司與信箱，即可抽 NVIDIA® GeForce RTX

【推薦閱讀】
◆ AI 真的知道怎麼推理嗎──最佳解答為何是 AI 擁有「jagged intelligence」？
◆ 為何 AI 就是不想承認自己不知道？專家提 AI 幻覺解法
◆ Meta 打造出可「用腦打字」的 AI！祖克柏的終極目標是什麼？

＊本文初稿為 AI 生成，資料來源：《TechCrunch》、《CNBC》、Anthropic、《VentureBeat》，首圖來源：。

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

Anthropic：推理、規劃和自我糾正不是分開的能力

Anthropic「最聰明」AI 的測試表現如何？

OpenAI 也將推出混合模型，誰是最後贏家？

免費報名 3/17-3/21【NVIDIA GTC 2025】AI 大會

更多理財相關文章

伊朗展開「毀滅性」報復！射飛彈回擊以色列、拉響防空警報

以色列炸伊朗比特幣暴跌！15分鐘30億元蒸發

工程師炒股8個月「740萬滾成3.85億」！全靠這玩法

當心台股反轉…留意三訊號

郵局定存「1新制」將上路！單筆限額大砍200萬　全台114萬人受影響

90％台人沒買台積電！7成股權都在「這1勢力」手上

請更新您的瀏覽器啟用Javascript

混合推理模型時代來臨！Anthropic 推 Claude 3.7 Sonnet「可調整」思考時間

TechOrange 科技報橘

Anthropic：推理、規劃和自我糾正不是分開的能力

Anthropic「最聰明」AI 的測試表現如何？

OpenAI 也將推出混合模型，誰是最後贏家？

更多理財相關文章

伊朗展開「毀滅性」報復！射飛彈回擊以色列、拉響防空警報

以色列炸伊朗比特幣暴跌！15分鐘30億元蒸發

工程師炒股8個月「740萬滾成3.85億」！全靠這玩法

當心台股反轉…留意三訊號

郵局定存「1新制」將上路！單筆限額大砍200萬 全台114萬人受影響

90％台人沒買台積電！7成股權都在「這1勢力」手上

請更新您的瀏覽器

郵局定存「1新制」將上路！單筆限額大砍200萬　全台114萬人受影響