請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

財經

阿里開源千問3模型 集成快慢思考大減算力消耗

商台新聞

更新於 2025年04月30日03:10 • 發布於 2025年04月29日03:18

阿里巴巴開源新一代通義千問模型Qwen3(簡稱"千問3"),參數量僅為DeepSeek-R1的1/3,指成本大幅下降,性能超越R1、OpenAI-o1等領先模型。

阿里指,千問3是一個"混合推理模型",將"快思考"與"慢思考"集成到同一個模型,支持119種語言,便於Agent調用,同時極大節省算力消耗。千問3採用混合專家(MoE)架構,總參數量235B,激活僅需22B。千問3預訓練數據量達36T tokens,並在後訓練階段經過多輪強化學習,將非思考模式無縫整合到思考模型中。

阿里說,千問3在推理、指令遵循、工具調用、多語言能力等方面均大幅增強。性能大幅提升的同時,千問3的部署成本亦大幅下降,僅需4張輝達H20的芯片,即可部署千問3滿血版,顯存佔用只是性能相近模型的1/3。

查看原始文章

【有相】銀主僅260萬「居屋價」推拍河景向南有房私樓 比買入價低逾五成

on.cc 東網

比亞迪2025年銷量超越特斯拉 全球電動車龍頭易主

中天新聞網

港元定期利率|滙豐推1個月10厘息定存 各大銀行比較及存款優惠【1月2日更新】

am730
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...