Anthropic搶先發表「混合推理模型」！使用者體驗成AI關鍵戰場？

擁有推理能力的模型，已是AI主戰場。先前在DeepSeek大戰中異常沉默的Anthropic發表號稱業界第一個「混合推理模型」Claude 3.7 Sonnet，奪回主動權。在開、閉源模型能力差距縮小時，提供更簡易、互動良好的使用者體驗，足以建構護城河嗎？

在DeepSeek震盪後，AI模型競賽持續高速前進。在Grok 3自稱「地表最強模型」後僅僅一週，在推理賽道上沉寂已久的Anthropic發表Claude 3.7 Sonnet，將Claude正式推入推理時代。

跳過3.6命名的Claude 3.7 Sonnet，一大賣點是用戶可自行切換模型推理深度。模型提供「標準模式」與「延伸思考模式」（Extended Thinking mode），後者將使用更多時間與算力，處理較複雜的問題。

開發者更可透過設定模型的「思考預算」，更精準地控制Claude思考的符元（token）數量，在成本、速度與輸出品質之間取得所需平衡。

這也是Claude第一次披露思考過程。無論這是否真的是模型內發生的思考步驟，這類思考資訊被認為有助於增加信任感，也可引導使用者微調指令。不過，目前推理功能僅限進階訂戶可用。

號稱業界首見「混合推理模型」

據《The Information》先前報導，Anthropic落後參與推理戰場的原因，是採用與其他開發團隊較不同的做法，也就是這次發布的「混合推理模型」（hybrid reasoning model）。關鍵在於讓同一個模型使用不同的思考時間，應對不同難度的任務，而非切換到另一個專職「推理」的模型。

官方部落格解釋，「就像人類使用一個大腦同時進行快速反應和深入思考，我們相信推理應該是前沿模型中的整合性能力，而不是完全獨立的模型。這種統一的進路也為使用者創造了更順暢的體驗。」

例如，人腦在回應「今天是星期幾」這類簡單問題時，使用的腦力顯然比解一題微積分來得少。我們能根據面對的任務難度，分配同一個大腦所撥用的認知能量與思考強度。

Anthropic產品與研究主管佩恩（Dianne Penn）對《The Verge》進一步解釋，「我們相信推理是人工智慧的一項特徵，而不是一件完全獨立的事。」

推理能力加持，未來模型能自決推理時間

推理能力是當前AI模型的關鍵戰場。這個轉向的部分原因，源於僅靠拉大訓練資料規模的回報率下滑。在高度競爭的AI市場中，開發團隊必須尋求其他進路提升模型表現，以維持創新力。

傳統大語言模型的強項是透過預測下一個字，快速地產生融貫、流暢的文本。但在面對需要一些推理步驟的問題時表現不佳，這也是為什麼初期模型常受困於簡單的數學算術。這可靠一些指令技巧補強，例如要求模型「一步一步地思考」，但這類指令工程的可靠性並不穩定。

因而OpenAI、Google與Anthropic等團隊開始使用特殊訓練資料進行強化學習，提升模型的推理能力。OpenAI在2024年9月推出第一個「推理模型」o1，以及進階的o3。Gemini 2.0 Flash Thinking、DeepSeek-R1與Grok 3 (think) 也都屬推理模型。

一個簡單的比喻是《快思慢想》作者、諾貝爾經濟獎得主康納曼（Daniel Kahneman）所提出的「系統一」與「系統二」思考方式。傳統模型較接近快速、直覺的「系統一」，推理模型則可視為使用了較多規劃、認知能力，也較為費時的「系統二」。

過往，要獲益於推理能力，使用者需要從模型下拉選單中選取適合的推理模型。在Gemini介面，出現的是2.0 Flash、2.0 Flash Thinking Experimental、2.0 Flash Thinking Experimental with apps等選項；OpenAI則提供GPT-4o、o1、o3-mini等選擇。

雖然每個型號伴隨簡單的介紹（如「適合日常任務」或「適合多步驟思考」），但對一般使用者來說，很難確知自己手上的任務究竟應該選用哪個模型。

目前，使用者得以自己指定Claude思考時間的長度。但長遠來說，Anthropic希望Claude可以自行釐清它應該對一個問題「思考」多長的時間，而不需要使用者預先告知。

模型能力趨同，使用者體驗是關鍵戰場

OpenAI也已注意到這部分的使用者需求。執行長奧特曼（Sam Altman）在2月中於X上宣布，「我們和你一樣討厭挑選模型，希望回歸到神奇的統一智慧。」

根據奧特曼分享的路線圖，o3不會以獨立模型的形式發布，而會是統整多項模型能力的GPT-5內的一部分。不過，OpenAI下一個發布的將是最後一個非推理模型GPT-4.5。這也表示在混合模型上，目前Anthropic以Claude 3.7 Sonnet領先一步。

在大語言模型的基礎上，推出聊天機器人ChatGPT，可說是OpenAI在產品設計上的首次成功出擊。兩年過後，市場上的聊天機器人不勝枚舉，DeepSeek等便宜的開源選擇也日漸進逼。光靠研發更強大的通用模型，已不足以主導市場。

基礎模型的護城河日漸削薄，產品體驗的獨特性可能是OpenAI必須展現優勢之處。尤其是面對Google、微軟這樣擁有完整平台作為基礎的競爭者時，目前每周擁有4億名活躍用戶的OpenAI，需要提供更好的服務來鞏固忠誠度。

從融入網路即時搜索功能、代理先驅「Operator」，以及深入研究助理「Deep Research」，皆可見得OpenAI在提升AI模型實用性與易得性的長期努力。

混合模型也是前行方向之一。Grok 3也已經可以讓使用者自由選擇思考深度，顯示提供更加統合的使用者體驗，是各團隊共同努力的目標。長遠來說，結合生成式AI與傳統機器學習的混合進路，可望降低生成式模型的幻覺問題，提供更適合特定場景需求的輸出。

Grok 3也已經可以讓使用者自由選擇思考深度。截自X

混合推理及程式專業雙向進擊，新一輪募資上看35億美元

與此同時，程式能力突出的Claude也趁勝追擊，推出代理性的命令列工具Claude Code。程式設計師可在終端機使用自然語言與Claude Code協作，例如搜索、閱讀程式碼，編輯檔案以及執行測試等。

比起克服學術性質的艱澀挑戰，Claude Code著重於應對開發者們日常可能遭遇的問題與任務，這反映Claude聚焦於「解決現實世界問題」的進路。

雖然仍沒有即時搜尋網路的能力，Claude 3.7 Sonnet的知識斷點延後至2024年10月，也更能精準辨識無害指令。據Anthropic表示，新模型的非必要拒絕回應率下降了45％。

據賓州大學華頓商學院教授莫利克（Ethan Mollick）轉述Anthropic說法，新模型的訓練成本約為數千萬美元。比起2023年訓練前沿模型動輒上億美元的規模，已降低不少。不過，推理轉向也代表模型將在推論階段使用更多算力。

《華爾街日報》報導，Anthropic新一輪募資規模超乎預期，料達35億美元，推動公司總估值衝上615億美元。顯示在中國模型挑戰下，投資者對AI競賽的興趣似乎有增無減。

更多精采報導，歡迎加入《遠見》 Line官方帳號！

請更新您的瀏覽器

理財

遠見雜誌

號稱業界首見「混合推理模型」

推理能力加持，未來模型能自決推理時間

模型能力趨同，使用者體驗是關鍵戰場

混合推理及程式專業雙向進擊，新一輪募資上看35億美元

更多理財相關文章

勞資談判破局！逾4.7萬人規模「大罷工」明將啟動三星股價盤中重挫5%

多檔ETF換股！這檔刪研華、納入記憶體族群

台股要崩盤了？全因巴逆逆開大絕「貸款買這兩檔」

136萬股東看過來　中鋼有新目標價！

央行拚連三年繳庫2,000億

6檔處置股今名單曝光！前股王也被關5分撮合　全部關到6月2日

請更新您的瀏覽器啟用Javascript

Anthropic搶先發表「混合推理模型」！使用者體驗成AI關鍵戰場？

遠見雜誌

號稱業界首見「混合推理模型」

推理能力加持，未來模型能自決推理時間

模型能力趨同，使用者體驗是關鍵戰場

混合推理及程式專業雙向進擊，新一輪募資上看35億美元

更多理財相關文章

勞資談判破局！逾4.7萬人規模「大罷工」明將啟動 三星股價盤中重挫5%

多檔ETF換股！這檔刪研華、納入記憶體族群

台股要崩盤了？全因巴逆逆開大絕「貸款買這兩檔」

136萬股東看過來 中鋼有新目標價！

央行拚連三年繳庫2,000億

6檔處置股今名單曝光！前股王也被關5分撮合 全部關到6月2日

請更新您的瀏覽器

勞資談判破局！逾4.7萬人規模「大罷工」明將啟動三星股價盤中重挫5%

136萬股東看過來　中鋼有新目標價！

6檔處置股今名單曝光！前股王也被關5分撮合　全部關到6月2日