阿里推全新推理模型QwQ-32B 僅二十分之一參數媲美DeepSeek R1

圖：Pixabay/Unsplash/Pexel

阿里巴巴 (09988-HK)(BABA-US)Qwen 團隊周三 (5 日) 晚間發文宣佈最新研究成果 QwQ-32B 大語言模型，在僅有 DeepSeek-R1 約二十分之一參數量的情況下，用強化學習 (RL) 實現性能上的驚人跨越。

Qwen 團隊在部落格文章中提到，他們深入探索 RL 在提升大語言模型智慧方面的巨大潛力，QwQ-32B 的成功發佈，有力地證明 RL 是提升模型性能的強大引擎。

Qwen 團隊採用了冷啟動 (cold-start checkpoint) 方式並實施結果導向 (outcome-based rewards) 強化學習策略，這種策略的核心在於不依賴傳統的獎勵模型，而是直接根據任務結果如答案是否正確、代碼是否運行成功來指導模型的學習，更加高效和直接。

根據數據顯示，在 AIME24 和 IFEval 等關鍵基準測試中，QwQ-32B 表現甚至略微超過參數量巨大的 DeepSeek-R1，且在其他基準測試中也基本與 DeepSeek-R1 持平，遠超其他對比模型。

Qwen 團隊指出，QwQ-32B 的發佈只是他們在 RL 方向上的初步嘗試，未來將繼續深入探索 RL 的潛力，並將 RL 與更強大的基礎模型相結合，利用更大的計算資源，致力於打造下一代 Qwen 模型，並最終邁向 AGI 目標。

此外，Qwen 團隊還將積極探索 Agent 與 RL 結合，實現更長程的推理能力，解鎖更高級別的智慧。

上周二 (2 月 25 日)，阿里也發佈了「Thinking（QwQ）」模型，是一款由 QwQ-Max-Preview 提供支援，基於 Qwen2.5-Max 的推理模型。目前，該模型仍處於預覽階段，具很強的數學理解、編碼、代理等能力。跟 Qwen2.5-Max 相比，它更加智慧，具有更多的創造性。

更多鉅亨報導

點我加鉅亨網LINE好友🔥財經大事不漏接

請更新您的瀏覽器

理財

anue鉅亨網

更多理財相關文章

首富愛私人飛機3／郭台銘重登台灣首富卻賣3架私人飛機　背後盤算算得精

名人理財／台積電前財務主管年薪千萬卻裸辭　郝旭烈教女兒只買0050

2.5小時爽賺百萬！股民高喊股皇萬歲！信驊萬金價後噴第一根漲停　再創新史高11320元

台灣被入列！曾神預測2008金融危機他再盤點新一波市場風暴關鍵

黃仁勳親曝這款輝達主晶片不是台積電操刀！業界揭三星奪大單背後真相

權王權后股東會年年報到　股市美魔女曝投資心法

留言 1

請更新您的瀏覽器啟用Javascript

阿里推全新推理模型QwQ-32B 僅二十分之一參數 媲美DeepSeek R1

anue鉅亨網

更多理財相關文章

首富愛私人飛機3／郭台銘重登台灣首富卻賣3架私人飛機 背後盤算算得精

名人理財／台積電前財務主管年薪千萬卻裸辭 郝旭烈教女兒只買0050

2.5小時爽賺百萬！股民高喊股皇萬歲！ 信驊萬金價後噴第一根漲停 再創新史高11320元

台灣被入列！曾神預測2008金融危機 他再盤點新一波市場風暴關鍵