請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

改善模型性能與成本,DeepSeek 新論文公開「mHC」架構

科技新報

更新於 01月02日16:19 • 發布於 01月02日13:14

DeepSeek 的研究人員開發一項名為「mHC」(Manifold-Constrained Hyper-Connections)技術,用來提升 AI 模型性能。

2026 年第一天,DeepSeek 發表論文公開 mHC 這項技術,目的在於強化大型語言模型用來學習資訊的「殘差連接」(Residual Connection)機制。這種機制在 2015 年被提出,也被廣泛應用在許多視覺模型上。DeepSeek 並非第一個嘗試改進殘差連接的市場參與者,但過往的嘗試成果好壞參半;如今 DeepSeek 將以 mHC 推動模型性能進化,可望用於日後的新模型。

首先,一款模型由許多稱為「層」(layer)的軟體元件構成。當使用者對 AI 工具輸入問題提示時,文字會進入第一層,該層負責生成回應所需運算中的一小部分。第一層將其運算結果傳遞給第二層,完成另一部分工作後,又將運算結果傳遞給第三層,以此類推,直到最後一層向使用者輸出問題的答案。

最後一層在 AI 的訓練過程扮演關鍵角色。若模型輸出的回應不正確,最後一層會接收到一種稱為梯度(gradient)的訊號。梯度代表 AI 出現錯誤,同時也包含模型該如何改進的資訊。這個梯度會從最後一層開始,沿著原先結構反向傳遞、直達第一層。

2015 年,研究人員發明殘差連接的梯度管理機制,它提供一種捷徑,能讓梯度在 2 個距離甚遠的 AI 層之間直接傳遞,無需經過中間層。殘差連接可緩解多種常見的 AI 訓練誤差,因此被廣泛用於大型語言模型與視覺模型。

2025 年 9 月,就有研究人員提出一種殘差連接的替代方案,稱為「超連接」(Hyper-Connections),解決了殘差連接容易放大處理訊號等缺點,但自身仍存在限制。

DeepSeek 新公開的 mHC 架構,是對超連接的強化實作,主要在於引進所謂歧管(manifold),它是一種複雜的數學物件,將單一通道拓寬成多條平行通道,讓每一層都能在通道之間重新分配資訊,同時彷彿設置安全地圖,使訊號不超出範圍。DeepSeek 論文強調,mHC 利用它來維持梯度在模型各層之間傳遞的穩定性。

DeepSeek 以 3 款分別擁有 30 億、90 億及 270 億參數的大型語言模型測試 mHC 架構,另外訓練 3 款參數量相同、但採用超連接技術的模型作為對照。根據 DeepSeek 的說法,採用 mHC 的大型語言模型在 8 項不同的 AI 基準測試表現更好。

DeepSeek 也指出,與超連接相比,mHC 架構在硬體使用上更有效率。超連接機制會在訓練過程大幅提高模型的記憶體需求,在內部測試中,DeepSeek 發現 mHC 的硬體額外負擔只有 6.27%。

「mHC 有助於解決目前的限制,並為下一代基礎模型架構的演進照亮新的發展路徑」,DeepSeek 論文寫到。

值得一提的是,這篇論文列出 19 名作者,DeepSeek 創辦人梁文鋒(Wenfeng Liang)也有署名,顯示他參與和引領 DeepSeek 研究方向,並推動團隊重新思考下一代 AI 系統的建構方式。

(首圖來源:Unsplash

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

無畏雪崩買盤抄底!台股急殺2600點破史上紀錄 收盤跌1568點守住4萬3

太報
02

投資人急壞了!台股重摔破2000點 3證券商竟傳當機

EBC 東森新聞
03

台股遭血洗 散戶零股族瘋撿便宜!台積電排榜首 第二名竟不是0050

三立新聞網
04

麻吉大哥8小時10度爆倉!又加碼至1075枚以太幣

民視新聞網
05

只花2元就中千萬!24張千萬發票無人領 消費地點一次看

EBC 東森新聞
06

大場面來了!台股大跌「半根」跌停 要進場抄底嗎?法人這樣看

鏡報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...