改善模型性能與成本，DeepSeek 新論文公開「mHC」架構

DeepSeek 的研究人員開發一項名為「mHC」（Manifold-Constrained Hyper-Connections）技術，用來提升 AI 模型性能。

2026 年第一天，DeepSeek 發表論文公開 mHC 這項技術，目的在於強化大型語言模型用來學習資訊的「殘差連接」（Residual Connection）機制。這種機制在 2015 年被提出，也被廣泛應用在許多視覺模型上。DeepSeek 並非第一個嘗試改進殘差連接的市場參與者，但過往的嘗試成果好壞參半；如今 DeepSeek 將以 mHC 推動模型性能進化，可望用於日後的新模型。

首先，一款模型由許多稱為「層」（layer）的軟體元件構成。當使用者對 AI 工具輸入問題提示時，文字會進入第一層，該層負責生成回應所需運算中的一小部分。第一層將其運算結果傳遞給第二層，完成另一部分工作後，又將運算結果傳遞給第三層，以此類推，直到最後一層向使用者輸出問題的答案。

最後一層在 AI 的訓練過程扮演關鍵角色。若模型輸出的回應不正確，最後一層會接收到一種稱為梯度（gradient）的訊號。梯度代表 AI 出現錯誤，同時也包含模型該如何改進的資訊。這個梯度會從最後一層開始，沿著原先結構反向傳遞、直達第一層。

2015 年，研究人員發明殘差連接的梯度管理機制，它提供一種捷徑，能讓梯度在 2 個距離甚遠的 AI 層之間直接傳遞，無需經過中間層。殘差連接可緩解多種常見的 AI 訓練誤差，因此被廣泛用於大型語言模型與視覺模型。

2025 年 9 月，就有研究人員提出一種殘差連接的替代方案，稱為「超連接」（Hyper-Connections），解決了殘差連接容易放大處理訊號等缺點，但自身仍存在限制。

DeepSeek 新公開的 mHC 架構，是對超連接的強化實作，主要在於引進所謂歧管（manifold），它是一種複雜的數學物件，將單一通道拓寬成多條平行通道，讓每一層都能在通道之間重新分配資訊，同時彷彿設置安全地圖，使訊號不超出範圍。DeepSeek 論文強調，mHC 利用它來維持梯度在模型各層之間傳遞的穩定性。

DeepSeek 以 3 款分別擁有 30 億、90 億及 270 億參數的大型語言模型測試 mHC 架構，另外訓練 3 款參數量相同、但採用超連接技術的模型作為對照。根據 DeepSeek 的說法，採用 mHC 的大型語言模型在 8 項不同的 AI 基準測試表現更好。

DeepSeek 也指出，與超連接相比，mHC 架構在硬體使用上更有效率。超連接機制會在訓練過程大幅提高模型的記憶體需求，在內部測試中，DeepSeek 發現 mHC 的硬體額外負擔只有 6.27%。

「mHC 有助於解決目前的限制，並為下一代基礎模型架構的演進照亮新的發展路徑」，DeepSeek 論文寫到。

值得一提的是，這篇論文列出 19 名作者，DeepSeek 創辦人梁文鋒（Wenfeng Liang）也有署名，顯示他參與和引領 DeepSeek 研究方向，並推動團隊重新思考下一代 AI 系統的建構方式。

（首圖來源：Unsplash）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

黃仁勳只排第4名！3大咖2025逢高出脫　貝佐斯套現1791億元居冠

川普拘捕馬杜洛後再放話拉美！警告墨西哥、痛批哥倫比亞與古巴

「台積電會屌打0050」這是送分題！不敗教主：拜託大跌讓我加碼

只剩1天！7、8月統一發票「6大獎無人領」　消費明細一次看

2025房市封關！房市有多冷？交屋潮拉尾盤　六都全年移轉仍創史上第三低

輝達顯示卡一夜飆到4千美！AI吸乾全球晶片產能、2026年全球消費者買單

請更新您的瀏覽器啟用Javascript