請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

改善模型性能與成本,DeepSeek 新論文公開「mHC」架構

科技新報

更新於 1天前 • 發布於 1天前

DeepSeek 的研究人員開發一項名為「mHC」(Manifold-Constrained Hyper-Connections)技術,用來提升 AI 模型性能。

2026 年第一天,DeepSeek 發表論文公開 mHC 這項技術,目的在於強化大型語言模型用來學習資訊的「殘差連接」(Residual Connection)機制。這種機制在 2015 年被提出,也被廣泛應用在許多視覺模型上。DeepSeek 並非第一個嘗試改進殘差連接的市場參與者,但過往的嘗試成果好壞參半;如今 DeepSeek 將以 mHC 推動模型性能進化,可望用於日後的新模型。

首先,一款模型由許多稱為「層」(layer)的軟體元件構成。當使用者對 AI 工具輸入問題提示時,文字會進入第一層,該層負責生成回應所需運算中的一小部分。第一層將其運算結果傳遞給第二層,完成另一部分工作後,又將運算結果傳遞給第三層,以此類推,直到最後一層向使用者輸出問題的答案。

最後一層在 AI 的訓練過程扮演關鍵角色。若模型輸出的回應不正確,最後一層會接收到一種稱為梯度(gradient)的訊號。梯度代表 AI 出現錯誤,同時也包含模型該如何改進的資訊。這個梯度會從最後一層開始,沿著原先結構反向傳遞、直達第一層。

2015 年,研究人員發明殘差連接的梯度管理機制,它提供一種捷徑,能讓梯度在 2 個距離甚遠的 AI 層之間直接傳遞,無需經過中間層。殘差連接可緩解多種常見的 AI 訓練誤差,因此被廣泛用於大型語言模型與視覺模型。

2025 年 9 月,就有研究人員提出一種殘差連接的替代方案,稱為「超連接」(Hyper-Connections),解決了殘差連接容易放大處理訊號等缺點,但自身仍存在限制。

DeepSeek 新公開的 mHC 架構,是對超連接的強化實作,主要在於引進所謂歧管(manifold),它是一種複雜的數學物件,將單一通道拓寬成多條平行通道,讓每一層都能在通道之間重新分配資訊,同時彷彿設置安全地圖,使訊號不超出範圍。DeepSeek 論文強調,mHC 利用它來維持梯度在模型各層之間傳遞的穩定性。

DeepSeek 以 3 款分別擁有 30 億、90 億及 270 億參數的大型語言模型測試 mHC 架構,另外訓練 3 款參數量相同、但採用超連接技術的模型作為對照。根據 DeepSeek 的說法,採用 mHC 的大型語言模型在 8 項不同的 AI 基準測試表現更好。

DeepSeek 也指出,與超連接相比,mHC 架構在硬體使用上更有效率。超連接機制會在訓練過程大幅提高模型的記憶體需求,在內部測試中,DeepSeek 發現 mHC 的硬體額外負擔只有 6.27%。

「mHC 有助於解決目前的限制,並為下一代基礎模型架構的演進照亮新的發展路徑」,DeepSeek 論文寫到。

值得一提的是,這篇論文列出 19 名作者,DeepSeek 創辦人梁文鋒(Wenfeng Liang)也有署名,顯示他參與和引領 DeepSeek 研究方向,並推動團隊重新思考下一代 AI 系統的建構方式。

(首圖來源:Unsplash

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

黃仁勳只排第4名!3大咖2025逢高出脫 貝佐斯套現1791億元居冠

ETtoday新聞雲
02

川普拘捕馬杜洛後再放話拉美!警告墨西哥、痛批哥倫比亞與古巴

anue鉅亨網
03

「台積電會屌打0050」這是送分題!不敗教主:拜託大跌讓我加碼

ETtoday新聞雲
04

只剩1天!7、8月統一發票「6大獎無人領」 消費明細一次看

CTWANT
05

2025房市封關!房市有多冷?交屋潮拉尾盤 六都全年移轉仍創史上第三低

三立新聞網
06

輝達顯示卡一夜飆到4千美!AI吸乾全球晶片產能、2026年全球消費者買單

anue鉅亨網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...