請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

財經

阿里開源千問3模型 集成快慢思考大減算力消耗

商台新聞

更新於 2025年04月30日03:10 • 發布於 2025年04月29日03:18

阿里巴巴開源新一代通義千問模型Qwen3(簡稱"千問3"),參數量僅為DeepSeek-R1的1/3,指成本大幅下降,性能超越R1、OpenAI-o1等領先模型。

阿里指,千問3是一個"混合推理模型",將"快思考"與"慢思考"集成到同一個模型,支持119種語言,便於Agent調用,同時極大節省算力消耗。千問3採用混合專家(MoE)架構,總參數量235B,激活僅需22B。千問3預訓練數據量達36T tokens,並在後訓練階段經過多輪強化學習,將非思考模式無縫整合到思考模型中。

阿里說,千問3在推理、指令遵循、工具調用、多語言能力等方面均大幅增強。性能大幅提升的同時,千問3的部署成本亦大幅下降,僅需4張輝達H20的芯片,即可部署千問3滿血版,顯存佔用只是性能相近模型的1/3。

查看原始文章

港姐陳庭欣豪門夢碎!豪宅降格搬蝸居 現崇山2房價值900萬

易發睇樓團

香港零售|Big C 再縮減香港分店 分店數目不及當年「阿布泰」 曾揚言分店目標達99間

BossMind

傳中國擬收緊對日本稀土出口審查 經濟損失達...

on.cc 東網
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...