改善模型性能與成本,DeepSeek 新論文公開「mHC」架構
DeepSeek 的研究人員開發一項名為「mHC」(Manifold-Constrained Hyper-Connections)技術,用來提升 AI 模型性能。
2026 年第一天,DeepSeek 發表論文公開 mHC 這項技術,目的在於強化大型語言模型用來學習資訊的「殘差連接」(Residual Connection)機制。這種機制在 2015 年被提出,也被廣泛應用在許多視覺模型上。DeepSeek 並非第一個嘗試改進殘差連接的市場參與者,但過往的嘗試成果好壞參半;如今 DeepSeek 將以 mHC 推動模型性能進化,可望用於日後的新模型。
首先,一款模型由許多稱為「層」(layer)的軟體元件構成。當使用者對 AI 工具輸入問題提示時,文字會進入第一層,該層負責生成回應所需運算中的一小部分。第一層將其運算結果傳遞給第二層,完成另一部分工作後,又將運算結果傳遞給第三層,以此類推,直到最後一層向使用者輸出問題的答案。
最後一層在 AI 的訓練過程扮演關鍵角色。若模型輸出的回應不正確,最後一層會接收到一種稱為梯度(gradient)的訊號。梯度代表 AI 出現錯誤,同時也包含模型該如何改進的資訊。這個梯度會從最後一層開始,沿著原先結構反向傳遞、直達第一層。
2015 年,研究人員發明殘差連接的梯度管理機制,它提供一種捷徑,能讓梯度在 2 個距離甚遠的 AI 層之間直接傳遞,無需經過中間層。殘差連接可緩解多種常見的 AI 訓練誤差,因此被廣泛用於大型語言模型與視覺模型。
2025 年 9 月,就有研究人員提出一種殘差連接的替代方案,稱為「超連接」(Hyper-Connections),解決了殘差連接容易放大處理訊號等缺點,但自身仍存在限制。
DeepSeek 新公開的 mHC 架構,是對超連接的強化實作,主要在於引進所謂歧管(manifold),它是一種複雜的數學物件,將單一通道拓寬成多條平行通道,讓每一層都能在通道之間重新分配資訊,同時彷彿設置安全地圖,使訊號不超出範圍。DeepSeek 論文強調,mHC 利用它來維持梯度在模型各層之間傳遞的穩定性。
DeepSeek 以 3 款分別擁有 30 億、90 億及 270 億參數的大型語言模型測試 mHC 架構,另外訓練 3 款參數量相同、但採用超連接技術的模型作為對照。根據 DeepSeek 的說法,採用 mHC 的大型語言模型在 8 項不同的 AI 基準測試表現更好。
DeepSeek 也指出,與超連接相比,mHC 架構在硬體使用上更有效率。超連接機制會在訓練過程大幅提高模型的記憶體需求,在內部測試中,DeepSeek 發現 mHC 的硬體額外負擔只有 6.27%。
「mHC 有助於解決目前的限制,並為下一代基礎模型架構的演進照亮新的發展路徑」,DeepSeek 論文寫到。
值得一提的是,這篇論文列出 19 名作者,DeepSeek 創辦人梁文鋒(Wenfeng Liang)也有署名,顯示他參與和引領 DeepSeek 研究方向,並推動團隊重新思考下一代 AI 系統的建構方式。
DeepSeek Touts New Training Method as China Pushes AI Efficiency
DeepSeek develops mHC AI architecture to boost model performance
DeepSeek kicks off 2026 with paper signalling push to train bigger models for less
(首圖來源:Unsplash)