請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

財經

財經|據報字節跳動豆包大模型團隊推全新稀疏模型架構UltraMem

Fortune Insight

更新於 02月12日05:51 • 發布於 02月12日05:51 • Fortune Insight
財經|據報字節跳動豆包大模型團隊推全新稀疏模型架構UltraMem

內媒《證券時報》報道,字節跳動豆包大模型團隊近期推出全新稀疏模型架構UltraMem,該架構有效解決MoE(混合專家)推理時高額的訪存問題,推理速度較MoE架構提升兩倍至六倍,推理成本最高可降低83%。

該研究還揭示新架構的Scaling Law,證明其具備優異的Scaling特性,在性能上超越了MoE。實驗結果表明,訓練規模達2,000萬value的UltraMem模型,在同等計算資源下,可同時實現業界領先的推理速度和模型性能,為構建數十億規模value或expert開闢新路徑。

Subscribe FORTUNE INSIGHT Telegram:
http://bit.ly/2M63TRO

Subscribe FORTUNE INSIGHT YouTube channel:
http://bit.ly/2FgJTen

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0