DeepSeek提出新架構解決大模型訓練不穩定問題
內地人工智能(AI)初創公司DeepSeek(深度求索)發表一篇新論文,提出一種名為mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著提升性能。
論文的第一作者共3位,分別為Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao;DeepSeek創辦人及行政總裁梁文鋒也在作者名單之列。
東網網站 : https://on.cc/東網Facebook專頁 : https://www.facebook.com/onccnews/