請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

財經

DeepSeek提出新架構解決大模型訓練不穩定問題

on.cc 東網

更新於 01月01日12:05 • 發布於 01月01日12:05 • on.cc 東網

內地人工智能(AI)初創公司DeepSeek(深度求索)發表一篇新論文,提出一種名為mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著提升性能。

論文的第一作者共3位,分別為Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao;DeepSeek創辦人及行政總裁梁文鋒也在作者名單之列。

東網網站 : https://on.cc/東網Facebook專頁 : https://www.facebook.com/onccnews/

查看原始文章

【多相】啟德銀主盤僅以買入價「五折」推拍 開價450萬

on.cc 東網

日圓跌穿158關見近一年低 傳高市早苗考慮解散眾議院

on.cc 東網

新盤銷情|新地西沙SIERRA SEA第2A期首輪213伙即日沽清 大手客逾4000萬掃8伙

BossMind
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...