請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

阿里推全新推理模型QwQ-32B 僅二十分之一參數 媲美DeepSeek R1

anue鉅亨網

更新於 2025年03月06日00:40 • 發布於 2025年03月06日00:40
圖:Pixabay/Unsplash/Pexel

阿里巴巴 (09988-HK)(BABA-US)Qwen 團隊周三 (5 日) 晚間發文宣佈最新研究成果 QwQ-32B 大語言模型,在僅有 DeepSeek-R1 約二十分之一參數量的情況下,用強化學習 (RL) 實現性能上的驚人跨越。

Qwen 團隊在部落格文章中提到,他們深入探索 RL 在提升大語言模型智慧方面的巨大潛力,QwQ-32B 的成功發佈,有力地證明 RL 是提升模型性能的強大引擎。

Qwen 團隊採用了冷啟動 (cold-start checkpoint) 方式並實施結果導向 (outcome-based rewards) 強化學習策略,這種策略的核心在於不依賴傳統的獎勵模型,而是直接根據任務結果如答案是否正確、代碼是否運行成功來指導模型的學習,更加高效和直接。

根據數據顯示,在 AIME24 和 IFEval 等關鍵基準測試中,QwQ-32B 表現甚至略微超過參數量巨大的 DeepSeek-R1,且在其他基準測試中也基本與 DeepSeek-R1 持平,遠超其他對比模型。

Qwen 團隊指出,QwQ-32B 的發佈只是他們在 RL 方向上的初步嘗試,未來將繼續深入探索 RL 的潛力,並將 RL 與更強大的基礎模型相結合,利用更大的計算資源,致力於打造下一代 Qwen 模型,並最終邁向 AGI 目標。

此外,Qwen 團隊還將積極探索 Agent 與 RL 結合,實現更長程的推理能力,解鎖更高級別的智慧。

上周二 (2 月 25 日),阿里也發佈了「Thinking(QwQ)」模型,是一款由 QwQ-Max-Preview 提供支援,基於 Qwen2.5-Max 的推理模型。目前,該模型仍處於預覽階段,具很強的數學理解、編碼、代理等能力。跟 Qwen2.5-Max 相比,它更加智慧,具有更多的創造性。

更多鉅亨報導

點我加鉅亨網LINE好友🔥財經大事不漏接

查看原始文章

更多理財相關文章

01

首富愛私人飛機3/郭台銘重登台灣首富卻賣3架私人飛機 背後盤算算得精

鏡週刊
02

名人理財/台積電前財務主管年薪千萬卻裸辭 郝旭烈教女兒只買0050

鏡週刊
03

2.5小時爽賺百萬!股民高喊股皇萬歲! 信驊萬金價後噴第一根漲停 再創新史高11320元

鏡報
04

台灣被入列!曾神預測2008金融危機 他再盤點新一波市場風暴關鍵

自由電子報
05

黃仁勳親曝這款輝達主晶片不是台積電操刀!業界揭三星奪大單背後真相

鏡報
06

權王權后股東會年年報到 股市美魔女曝投資心法

太報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 1

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...