不拼算力拼架構!DeepSeek 新招 mHC AI 架構如何突破「記憶體高牆」?
在全球 AI 產業競逐算力、模型規模與資本密度的當下,中國 AI 新創 DeepSeek 再次選擇從「底層架構」出手,2026 年第一天就發表由創辦人梁文峰共同掛名的最新論文,提出一套名為「流形約束超連接」(Manifold-Constrained Hyper-Connections,簡稱 mHC)的全新模型訓練方法,試圖在模型規模持續放大的同時,壓低運算與能源成本。
對熟悉 DeepSeek 發展節奏的產業觀察者而言,這類論文往往不只是學術交流,更是下一代旗艦模型背後做出哪些技術創新的「預告片」。DeepSeek 在一年前曾以 R1 推理模型震撼全球業界,當時該模型的開發成本僅為矽谷競爭對手的一小部分。隨著新論文問世,外界對 DeepSeek 下一代旗艦模型(被廣泛稱為 R2)的期待值正不斷攀升,分析師普遍預測該模型可能會在 2 月的農曆春節前後正式登場。
不拼算力,改拼架構:從 ResNet 到 mHC 的演進
DeepSeek 在論文中點出當前大型模型訓練的核心矛盾:模型要變得更深、更大,訓練過程卻越來越難以穩定,且記憶體與算力需求快速攀升。這對無法自由取得最先進 NVIDIA 晶片的中國 AI 公司而言尤其棘手。
一般來說,AI 模型由多個「層」(layer)組成,使用者輸入提示詞後,資料會依序通過各層進行運算,每一層只負責部分計算,再將結果傳給下一層,直到最後一層輸出回應。這種分層結構讓模型能逐步累積判斷結果,完成對問題的理解與生成,是現代大型語言模型與視覺模型的核心運作方式。
現行多數大型語言模型,仍建立在 2015 年提出的 ResNet(殘差網路)架構之上,透過「殘差連接」讓誤差訊號能在深層網路中順利回傳,避免訓練崩潰。然而,隨著模型層數與參數規模不斷擴張,殘差連接也逐漸暴露出學習訊號「塌縮」與擴展性受限的問題。
2024 年,字節跳動研究團隊曾提出 Hyper-Connections(HC),試圖擴大殘差路徑的表達能力,提升模型在不增加單元計算成本下的學習穩定度。DeepSeek 在論文中肯定 HC 的方向,但也直指其致命缺點:記憶體成本隨模型放大而急遽上升,實務擴展性有限。
mHC 的核心創新,在於引入「流形」(manifold)這一數學結構,對 HC 的梯度流動進行約束。透過這種方式,模型在訓練過程中能維持梯度穩定,同時避免不必要的狀態膨脹,讓大規模訓練在成本與效能之間取得新的平衡。
實測結果揭露:更大模型,卻沒有更貴
在實驗中,DeepSeek 使用 mHC 分別訓練了 30 億、90 億與 270 億參數的模型,並與傳統 Hyper-Connections 架構進行對照。結果顯示,mHC 在八項 AI 基準測試中整體表現更佳,同時相較 Hyper-Connections 在訓練期間大幅增加記憶體需求,mHC 的硬體額外負擔僅約 6.27%。
研究團隊認為,mHC 有助深化對拓撲結構如何影響最佳化與表徵學習的理解,並為下一代基礎模型架構開啟新方向。
去年,DeepSeek 以遠低於矽谷對手成本的 R1 模型,展現與之匹敵的推理能力,正是建立在一連串「非主流」架構決策之上。Bloomberg Intelligence 分析認為,R2 的推出有機會再次撼動全球大型語言模型競局,特別是在成本效益與部署彈性上,對既有玩家形成壓力。
從更宏觀的角度來看,mHC 不只是單一技巧,而是 DeepSeek 對「下一代基礎模型該如何成長」的系統性回答。在模型參數規模仍將持續擴大的前提下,誰能用更少的能源、記憶體與算力完成訓練,將直接左右 AI 產業的競爭版圖。
R2 是否真的即將登場,仍有待官方揭曉。但可以確定的是,DeepSeek 已經替 2026 年的 AI 競賽,率先開出了第一槍。
*本文開放合作夥伴轉載,資料來源:《Bloomberg》、《SCMP》、《SilisonAngle》、arXiv,首圖來源:Unsplash
解鎖 3 堂 NVIDIA DLI 技能培訓課!立即報名 1/10【AI 人才年會暨 AI 職涯博覽會】,就能免費參與課程強化 AI 能力、為職涯加分