請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

不拼算力拼架構!DeepSeek 新招 mHC AI 架構如何突破「記憶體高牆」?

TechOrange 科技報橘

更新於 01月02日12:33 • 發布於 01月02日04:33 • 廖紹伶

在全球 AI 產業競逐算力、模型規模與資本密度的當下,中國 AI 新創 DeepSeek 再次選擇從「底層架構」出手,2026 年第一天就發表由創辦人梁文峰共同掛名的最新論文,提出一套名為「流形約束超連接」(Manifold-Constrained Hyper-Connections,簡稱 mHC)的全新模型訓練方法,試圖在模型規模持續放大的同時,壓低運算與能源成本。

對熟悉 DeepSeek 發展節奏的產業觀察者而言,這類論文往往不只是學術交流,更是下一代旗艦模型背後做出哪些技術創新的「預告片」。DeepSeek 在一年前曾以 R1 推理模型震撼全球業界,當時該模型的開發成本僅為矽谷競爭對手的一小部分。隨著新論文問世,外界對 DeepSeek 下一代旗艦模型(被廣泛稱為 R2)的期待值正不斷攀升,分析師普遍預測該模型可能會在 2 月的農曆春節前後正式登場。

不拼算力,改拼架構:從 ResNet 到 mHC 的演進

DeepSeek 在論文中點出當前大型模型訓練的核心矛盾:模型要變得更深、更大,訓練過程卻越來越難以穩定,且記憶體與算力需求快速攀升。這對無法自由取得最先進 NVIDIA 晶片的中國 AI 公司而言尤其棘手。

一般來說,AI 模型由多個「層」(layer)組成,使用者輸入提示詞後,資料會依序通過各層進行運算,每一層只負責部分計算,再將結果傳給下一層,直到最後一層輸出回應。這種分層結構讓模型能逐步累積判斷結果,完成對問題的理解與生成,是現代大型語言模型與視覺模型的核心運作方式。

現行多數大型語言模型,仍建立在 2015 年提出的 ResNet(殘差網路)架構之上,透過「殘差連接」讓誤差訊號能在深層網路中順利回傳,避免訓練崩潰。然而,隨著模型層數與參數規模不斷擴張,殘差連接也逐漸暴露出學習訊號「塌縮」與擴展性受限的問題。

2024 年,字節跳動研究團隊曾提出 Hyper-Connections(HC),試圖擴大殘差路徑的表達能力,提升模型在不增加單元計算成本下的學習穩定度。DeepSeek 在論文中肯定 HC 的方向,但也直指其致命缺點:記憶體成本隨模型放大而急遽上升,實務擴展性有限。

mHC 的核心創新,在於引入「流形」(manifold)這一數學結構,對 HC 的梯度流動進行約束。透過這種方式,模型在訓練過程中能維持梯度穩定,同時避免不必要的狀態膨脹,讓大規模訓練在成本與效能之間取得新的平衡。

實測結果揭露:更大模型,卻沒有更貴

在實驗中,DeepSeek 使用 mHC 分別訓練了 30 億、90 億與 270 億參數的模型,並與傳統 Hyper-Connections 架構進行對照。結果顯示,mHC 在八項 AI 基準測試中整體表現更佳,同時相較 Hyper-Connections 在訓練期間大幅增加記憶體需求,mHC 的硬體額外負擔僅約 6.27%。

研究團隊認為,mHC 有助深化對拓撲結構如何影響最佳化與表徵學習的理解,並為下一代基礎模型架構開啟新方向。

去年,DeepSeek 以遠低於矽谷對手成本的 R1 模型,展現與之匹敵的推理能力,正是建立在一連串「非主流」架構決策之上。Bloomberg Intelligence 分析認為,R2 的推出有機會再次撼動全球大型語言模型競局,特別是在成本效益與部署彈性上,對既有玩家形成壓力。

從更宏觀的角度來看,mHC 不只是單一技巧,而是 DeepSeek 對「下一代基礎模型該如何成長」的系統性回答。在模型參數規模仍將持續擴大的前提下,誰能用更少的能源、記憶體與算力完成訓練,將直接左右 AI 產業的競爭版圖。

R2 是否真的即將登場,仍有待官方揭曉。但可以確定的是,DeepSeek 已經替 2026 年的 AI 競賽,率先開出了第一槍。

*本文開放合作夥伴轉載,資料來源:《Bloomberg》《SCMP》《SilisonAngle》arXiv,首圖來源:Unsplash

解鎖 3 堂 NVIDIA DLI 技能培訓課!立即報名 1/10【AI 人才年會暨 AI 職涯博覽會】,就能免費參與課程強化 AI 能力、為職涯加分

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

AI搶飯碗!美媒點名「最可能消失」7種工作

NOWNEWS今日新聞
02

你在淘汰名單上嗎?到2030年最可能消失的7種職業1次看

自由電子報
03

年薪破300萬!黃仁勳點未來搶手「3職業」成金飯碗:寫程式不是唯一出路

三立新聞網
04

「定期定額台積電」竟1股都沒買到 投資新手揭背後真相!全網朝聖:謝謝提醒

鏡週刊
05

她退休11年總花費只有314萬!居無定所走到哪、玩到哪、住到哪,壯遊世界把旅行當生活

幸福熟齡 X 今周刊
06

賣藍莓先看台灣!外媒曝市場的秘密

自由電子報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...