請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

Anthropic搶先發表「混合推理模型」!使用者體驗成AI關鍵戰場?

遠見雜誌

更新於 2025年02月27日08:59 • 發布於 2025年02月27日08:58 • 傅莞淇

擁有推理能力的模型,已是AI主戰場。先前在DeepSeek大戰中異常沉默的Anthropic發表號稱業界第一個「混合推理模型」Claude 3.7 Sonnet,奪回主動權。在開、閉源模型能力差距縮小時,提供更簡易、互動良好的使用者體驗,足以建構護城河嗎?

在DeepSeek震盪後,AI模型競賽持續高速前進。在Grok 3自稱「地表最強模型」後僅僅一週,在推理賽道上沉寂已久的Anthropic發表Claude 3.7 Sonnet,將Claude正式推入推理時代。

跳過3.6命名的Claude 3.7 Sonnet,一大賣點是用戶可自行切換模型推理深度。模型提供「標準模式」與「延伸思考模式」(Extended Thinking mode),後者將使用更多時間與算力,處理較複雜的問題。

開發者更可透過設定模型的「思考預算」,更精準地控制Claude思考的符元(token)數量,在成本、速度與輸出品質之間取得所需平衡。

這也是Claude第一次披露思考過程。無論這是否真的是模型內發生的思考步驟,這類思考資訊被認為有助於增加信任感,也可引導使用者微調指令。不過,目前推理功能僅限進階訂戶可用。

號稱業界首見「混合推理模型」

據《The Information》先前報導,Anthropic落後參與推理戰場的原因,是採用與其他開發團隊較不同的做法,也就是這次發布的「混合推理模型」(hybrid reasoning model)。關鍵在於讓同一個模型使用不同的思考時間,應對不同難度的任務,而非切換到另一個專職「推理」的模型。

官方部落格解釋,「就像人類使用一個大腦同時進行快速反應和深入思考,我們相信推理應該是前沿模型中的整合性能力,而不是完全獨立的模型。這種統一的進路也為使用者創造了更順暢的體驗。」

例如,人腦在回應「今天是星期幾」這類簡單問題時,使用的腦力顯然比解一題微積分來得少。我們能根據面對的任務難度,分配同一個大腦所撥用的認知能量與思考強度。

Anthropic產品與研究主管佩恩(Dianne Penn)對《The Verge》進一步解釋,「我們相信推理是人工智慧的一項特徵,而不是一件完全獨立的事。」

推理能力加持,未來模型能自決推理時間

推理能力是當前AI模型的關鍵戰場。這個轉向的部分原因,源於僅靠拉大訓練資料規模的回報率下滑。在高度競爭的AI市場中,開發團隊必須尋求其他進路提升模型表現,以維持創新力。

傳統大語言模型的強項是透過預測下一個字,快速地產生融貫、流暢的文本。但在面對需要一些推理步驟的問題時表現不佳,這也是為什麼初期模型常受困於簡單的數學算術。這可靠一些指令技巧補強,例如要求模型「一步一步地思考」,但這類指令工程的可靠性並不穩定。

因而OpenAI、Google與Anthropic等團隊開始使用特殊訓練資料進行強化學習,提升模型的推理能力。OpenAI在2024年9月推出第一個「推理模型」o1,以及進階的o3。Gemini 2.0 Flash Thinking、DeepSeek-R1與Grok 3 (think) 也都屬推理模型。

一個簡單的比喻是《快思慢想》作者、諾貝爾經濟獎得主康納曼(Daniel Kahneman)所提出的「系統一」與「系統二」思考方式。傳統模型較接近快速、直覺的「系統一」,推理模型則可視為使用了較多規劃、認知能力,也較為費時的「系統二」。

過往,要獲益於推理能力,使用者需要從模型下拉選單中選取適合的推理模型。在Gemini介面,出現的是2.0 Flash、2.0 Flash Thinking Experimental、2.0 Flash Thinking Experimental with apps等選項;OpenAI則提供GPT-4o、o1、o3-mini等選擇。

雖然每個型號伴隨簡單的介紹(如「適合日常任務」或「適合多步驟思考」),但對一般使用者來說,很難確知自己手上的任務究竟應該選用哪個模型。

目前,使用者得以自己指定Claude思考時間的長度。但長遠來說,Anthropic希望Claude可以自行釐清它應該對一個問題「思考」多長的時間,而不需要使用者預先告知。

模型能力趨同,使用者體驗是關鍵戰場

OpenAI也已注意到這部分的使用者需求。執行長奧特曼(Sam Altman)在2月中於X上宣布,「我們和你一樣討厭挑選模型,希望回歸到神奇的統一智慧。」

根據奧特曼分享的路線圖,o3不會以獨立模型的形式發布,而會是統整多項模型能力的GPT-5內的一部分。不過,OpenAI下一個發布的將是最後一個非推理模型GPT-4.5。這也表示在混合模型上,目前Anthropic以Claude 3.7 Sonnet領先一步。

在大語言模型的基礎上,推出聊天機器人ChatGPT,可說是OpenAI在產品設計上的首次成功出擊。兩年過後,市場上的聊天機器人不勝枚舉,DeepSeek等便宜的開源選擇也日漸進逼。光靠研發更強大的通用模型,已不足以主導市場。

基礎模型的護城河日漸削薄,產品體驗的獨特性可能是OpenAI必須展現優勢之處。尤其是面對Google、微軟這樣擁有完整平台作為基礎的競爭者時,目前每周擁有4億名活躍用戶的OpenAI,需要提供更好的服務來鞏固忠誠度。

從融入網路即時搜索功能、代理先驅「Operator」,以及深入研究助理「Deep Research」,皆可見得OpenAI在提升AI模型實用性與易得性的長期努力。

混合模型也是前行方向之一。Grok 3也已經可以讓使用者自由選擇思考深度,顯示提供更加統合的使用者體驗,是各團隊共同努力的目標。長遠來說,結合生成式AI與傳統機器學習的混合進路,可望降低生成式模型的幻覺問題,提供更適合特定場景需求的輸出。

Grok 3也已經可以讓使用者自由選擇思考深度。截自X

Grok 3也已經可以讓使用者自由選擇思考深度。截自X

混合推理及程式專業雙向進擊,新一輪募資上看35億美元

與此同時,程式能力突出的Claude也趁勝追擊,推出代理性的命令列工具Claude Code。程式設計師可在終端機使用自然語言與Claude Code協作,例如搜索、閱讀程式碼,編輯檔案以及執行測試等。

比起克服學術性質的艱澀挑戰,Claude Code著重於應對開發者們日常可能遭遇的問題與任務,這反映Claude聚焦於「解決現實世界問題」的進路。

雖然仍沒有即時搜尋網路的能力,Claude 3.7 Sonnet的知識斷點延後至2024年10月,也更能精準辨識無害指令。據Anthropic表示,新模型的非必要拒絕回應率下降了45%。

據賓州大學華頓商學院教授莫利克(Ethan Mollick)轉述Anthropic說法,新模型的訓練成本約為數千萬美元。比起2023年訓練前沿模型動輒上億美元的規模,已降低不少。不過,推理轉向也代表模型將在推論階段使用更多算力。

《華爾街日報》報導,Anthropic新一輪募資規模超乎預期,料達35億美元,推動公司總估值衝上615億美元。顯示在中國模型挑戰下,投資者對AI競賽的興趣似乎有增無減。

更多精采報導,歡迎加入《遠見》 Line官方帳號!

延伸閱讀:

查看原始文章

更多理財相關文章

01

快訊/網紅翻車!雷虎怒轟Cheap沒專業 祭證交法天條捍衛商譽

三立新聞網
02

幫女兒買10張台積電!陳重銘曝「已賺逾1千萬」:英國留學都它買單

三立新聞網
03

54歲存款百萬,過簡單生活卻崩潰!「遇一事」她驚覺:什麼都沒有最可怕

商周.com
04

國安基金宣布退場 護盤279天「報酬率達53%」刷新台股4紀錄

上報
05

重大轉向!史上最長護盤!國安基金退場

三立新聞網
06

出國留學給台積電買單!他幫女兒買10張:已賺1100萬

民視新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...