影片｜DeepSeek懶人包：MLA架構強在哪？什麼是知識蒸餾？6大QA解密DeepSeek效應

重點1 ：DeepSeek的核心優勢在於效率和優化，其作為量化對沖基金孵化的背景，使其具備了追求效率和優化的基因。

重點2 ：DeepSeek的創新源自團隊和方法論，例如DeepSeek的多頭潛在注意力架構（MLA）等創新技術，讓推理價格大幅降低，進而促進AI產業的競爭。

重點3 ：DeepSeek模型確實存在審查問題，這將限制其在人文領域的發展，並可能阻礙通用人工智慧的實現。

在台灣農曆新年期間，中國DeepSeek在AI領域引發廣泛關注，其以「高性價比」的成本，訓練出媲美甚至超越OpenAI先進模型的產品，使其在競爭激烈的市場中投下利空因素，更讓輝達股價在5天內一度下跌16％。

Meta首席AI科學家Yann LeCun表示，DeepSeek 的成功，並不應該被看作中國（AI）超越了美國，應看作開源模型正在超越專有模型。

微軟執行長納德拉（satya nadella）則表示：「DeepSeek新模型令人印象深刻，尤其是在如何高效開發開源模型並進行推理運算方面，它的運算效率非常出色，我們應當非常認真地看待中國技術的進展。」

OpenAI推o3-mini應戰DeepSeek

面對DeepSeek橫空出世，OpenAI於2月1日火速推出全新推理模型o3-mini應戰，並在ChatGPT首次向所有用戶免費提供推理模型。

OpenAI執行長奧特曼近來公開表示，將重新思考 OpenAI的開源策略， 「我個人認為我們在了歷史錯誤的一邊，必須找出不同的開源策略，但並不是 OpenAI的每個人都同意這種觀點，這也不是我們目前的首要任務。」

奧特曼還說，OpenAI將效仿DeepSeek的做法，「我們很快就會展示一個更有用、更詳細的版本，感謝R1讓我們有所更新！」

奧特曼在貼文中強調，o3-mini在測驗中的結果贏過的R1。

一言以蔽之，DeepSeek最核心的優勢在於其效率和優化能力，《數位時代》以下將統整各方資訊為您解析其影響力。

文章目錄（點擊可直接前往該段落）

誰打造了DeepSeek？
DeepSeek真的這麼省錢嗎？
DeepSeek的創新技術：MLA
輝達「金鏟子」褪色了？
DeepSeek的省錢方式：AI蒸餾
DeepSeek有哪些限制？

DeepSeek由High-Flyer孵化！奠定高效基因

據Semianalysis指出，DeepSeek是由中國對沖基金「幻方量化」（High-Flyer）於2023年成立的新創公司，對此獨立科技新聞記者高燦鳴（Tim Culpan）指出，DeepSeek的突破性進展，「可歸功於其獨特的量化背景。」

高燦鳴說，量化對沖基金的核心是從公開資訊中提取關鍵數據，並通過演算法進行分析和預測。而DeepSeek將這一邏輯應用於AI模型開發，捨棄不必要的數據，僅使用所需資訊，從而大幅降低了計算成本。

DeepSeek的創新得益於團隊的努力，例如多頭潛在注意力架構（MLA）的發明，便是其年輕研究員在總結現有注意力架構基礎上提出的創新方案。 對此，Semianalysis指出，MLA為DeepSeek團隊耗時個多月開發，其將每個查詢KV量（Key-Value Cache，簡稱KV Cache）減少93.3%，大幅降低推理價格。

Semianalysis指出，DeepSeek完全從中國本土尋找人才，不考慮以前的資歷，非常注重能力和好奇心，目前約有150名員工（但正在迅速增長），並定期從北大、浙大等招募頂尖人才。 據稱，有潛力的招募對象能拿到130萬美元（約新台幣4,312萬元）的薪資水準。

報導也指出，小型、資金充足且專注的新創公司往往能夠突破技術的邊界，「而DeepSeek正是這樣的例子，由於自籌資金，因此可以快速地實施新想法。」報導更直言， 「DeepSeek是目前最好的「開放權重」（open weights）實驗室，超越了 Meta 的 Llama、Mistral 等其他公司。」

DeepSeek真的這麼省錢嗎？

DeepSeek宣稱只使用2,048顆輝達「H800」GPU訓練，但這個說法外界產生質疑。例如，Scale AI執行長Alexandr Wang表示，DeepSeek至少有5萬顆高階的H100晶片， Semianalysis也指出，DeepSeek的硬體支出其實遠超過5億美元。

據Semianalysis計算， DeepSeek使用了50,000顆輝達Hopper架構GPU，當中包括10,000顆H800及10,000顆「H100」，還有輝達特供中國的「H20」，這些GPU主要用於AI訓練、研究及財務模型。

換算下來，DeepSeek的總資本支出約為16億美元，其中營運成本估計有9.44億美元，而對GPU的投資額超過5億美元。

據悉，美國政府懷疑DeepSeek可能透過新加坡中轉，迴避出口管制。 而據輝達財報，新加坡市場在2023財年Q3佔輝達營收9%，但到2025財年Q3增加至22%。 目前，美國白宮、FBI及國會議員已啟動調查，關切DeepSeek是否透過新加坡第三方公司購買美國禁售GPU。

據稱，DeepSeek擁有10,000顆「H100」晶片。

DeepSeek的創新技術：MLA

多頭潛在注意力架構（MLA）的主要貢獻在於，將KV Cache下降進而降低推理價格。

事實上，KV Cache 是 transformer 模型中的一種記憶體機制，用於存儲代表對話上下文的數據，從而減少不必要的計算，就像是一個暫存區，用來記住大型語言模型在生成文字時已經算過的東西，避免重複計算，讓模型跑得更快。

而由於MLA降低了計算成本，因此可以使用更少的資源訓練出性能良好的模型。這為開發小型化、高效的 AI 模型提供了可能，不但使得一些小型 AI 公司或新創企業，也能夠在大型語言模型領域取得突破，更進而加速 AI 創新，並可能改變 AI 產業競爭格局。

舉例而言，DeepSeek宣稱使用6,710億個參數進行訓練的「V3」模型，只用2,048顆輝達「H800」GPU費時2個月就訓練完成，相當於280萬個GPU小時。不過DeepSeek指出，這個數字僅涵蓋正式訓練模型的費用，並未納入跟「架構、演算法或資料研究與消融實驗（ablation experiment）」有關的成本。

相較之下，Facebook母公司Meta Platforms使用4,050億個參數訓練的「Llama 3」模型，花費的運算資源卻是V3的11倍（3,080萬個GPU小時），採用的超級電腦內建16,384顆「H100」GPU、費時54天。

總結而言，MLA的核心優勢在於降低計算複雜度，這意味著在相同的效能要求下，可以使用更少的計算資源，或是等級較低的 GPU 來完成 AI 模型的訓練和推論，而這可能會降低市場對輝達高階 GPU的需求，因為客戶不再需要大量昂貴的GPU，就能運行大型語言模型。

除此之外，MLA也可能會打破大型科技公司在AI領域的壟斷地位，形成更多元化的競爭格局，而輝達作為目前GPU的最大供應商，其市占率可能受到影響。這也是輝達股價在截至2月3日的近30天內，一口氣下跌13%（每股120.07美元）的主要原因。

輝達「金鏟子」褪色了？

那麼，在DeepSeek出現後，市場上的GPU需求，會因為成本下降而降低嗎？NVIDIA的護城河出了裂縫嗎？台大資工系教授洪士灝於臉書發文指出，「不需要做過度的詮釋。」

他強調，高階的晶片研發和製程都很燒錢，不是一般公司玩得起的，因此NVIDIA在高階市場上仍有其領先優勢。然而，不需要高階GPU的大算力與大記憶體就能訓練出具競爭力的大模型，並且提供價廉物美的推論服務，這樣的故事的確對NVIDIA的高階GPU的市場造成影響。

洪士灝說，整體而言，NVIDIA恐怕不能繼續以這些年慣用的高姿態宰制市場，影響比較大的是利潤。「不過我還是得說，目前NVIDIA在技術和生態系上還是領先對手的，需要大算力的最先進AI研發，還是需要NVIDIA晶片的。」

DeepSeek的省錢方式：AI蒸餾

據《路透社》報導，白宮高級顧問警告，DeepSeek可能受益於一種據稱借鑒美國競爭對手進步的「蒸餾」（distillation）方法，從美國的AI模型中「學習」，進而快速提升自身能力。

美國官員擔心，DeepSeek 可能透過這蒸餾技術「免費搭便車」，竊取美國科技公司如OpenAI、Google等投入巨額資金和時間開發的AI技術。此外，DeepSeek還開源程式碼，讓其他國家也能輕易取得這項技術，進一步減少美國的領先優勢。

據《華爾街日報》報導，OpenAI和Anthropic等公司的AI技術，基本上是利用大量原始數據從頭開始自學，這個過程通常需要數月和數千萬美元或更多。 然而，通過利用這些AI巨頭的工作結果，蒸餾可以讓後進者在幾周甚至幾天內創建一個幾乎同樣好的模型，而成本要低得多。

AI蒸餾（AI Distillation，又稱（knowledge distillation知識蒸餾） 是一種模型壓縮技術，主要目的是將一個大型的、複雜的深度學習模型 （通常稱為『教師模型』）的知識轉移到一個較小、更簡單的模型（通常稱為『學生模型』）中。這樣可以在保持模型性能的情況下，減少計算資源和儲存空間的需求，尤其適用於邊緣設備或計算資源有限的情境。

簡單來說，DeepSeek並非從零開始構建大型 AI 模型，而是利用其他公司（例如 OpenAI）生成的 tokens 進行學習和優化，這種做法類似於「站在巨人的肩膀上」，DeepSeek並非重新發明輪子，而是基於現有技術打造更輕便、更高效的「自行車」。

DeepSeek有哪些限制？

儘管DeepSeek取得了顯著成就，但其模型中存在的審查問題，將限制其在人文領域的發展。若要實現通用人工智慧，DeepSeek必須解決這一難題。

現在很多人引誘DeepSeek說出敏感的政治內容，例如承認台灣是一個國家，或承認1989年天安門事件中有人員傷亡。高燦鳴指出，當服務給出符合中國官方說法的回答時，不少測試者就會興高采烈地宣稱「看吧！審查！」這種行為雖然有趣，但可能沒有什麼實際意義。

高燦鳴認為，審查真正的問題在於，為了符合審查要求，大量資訊被從訓練數據中移除，這導致 DeepSeek的知識體系是不完整的。

舉例來說，如果一個AI無法提及天安門事件，它就無法正確解釋鄧小平南巡（1992年1月18日～2月21日）的歷史意義，就像在解釋美國內戰時不提奴隸制度一樣，而這種知識體系的缺失，會嚴重影響AI對歷史、政治、社會等人文科目的理解。

延伸閱讀：DeepSeek一夕成AI當紅炸子雞，創辦人梁文鋒是誰？「一隻平凡的小豬」揭密
 OpenAI推出最新AI代理Deep Research！這是什麼？厲害在哪？

資料來源：Semianalysis、Tim Culpan、TechChurch、36KR、WSJ、BBC

本文初稿為AI編撰，整理．編輯/ 李先泰

請更新您的瀏覽器

理財

數位時代

OpenAI推o3-mini應戰DeepSeek

文章目錄（點擊可直接前往該段落）

DeepSeek由High-Flyer孵化！奠定高效基因

DeepSeek真的這麼省錢嗎？

DeepSeek的創新技術：MLA

輝達「金鏟子」褪色了？

DeepSeek的省錢方式：AI蒸餾

DeepSeek有哪些限制？

更多理財相關文章

穎崴砸8億發年終！員工均領35個月、最高50個月

獨家／30年來第一次見到這現象　力積電黃崇仁：記憶體缺到2028年都不一定緩解

台股站穩3萬3大關！終場大漲668點創史上新高　台積電衝1880元新天價

台灣汽車一旦零關稅真相很殘酷　經濟部下午召車廠盤點生死衝擊

台塑、南亞、台化千億元聯貸案完成簽約　10年最大規模、連結ESG推動轉型

聯電、世界先進...受惠晶圓代工「產能排擠」效應，2台廠受注目

留言 19

請更新您的瀏覽器啟用Javascript

影片｜DeepSeek懶人包：MLA架構強在哪？什麼是知識蒸餾？6大QA解密DeepSeek效應

數位時代

OpenAI推o3-mini應戰DeepSeek

文章目錄（點擊可直接前往該段落）

DeepSeek由High-Flyer孵化！奠定高效基因

DeepSeek真的這麼省錢嗎？

DeepSeek的創新技術：MLA

輝達「金鏟子」褪色了？

DeepSeek的省錢方式：AI蒸餾

DeepSeek有哪些限制？

更多理財相關文章

穎崴砸8億發年終！員工均領35個月、最高50個月

獨家／30年來第一次見到這現象 力積電黃崇仁：記憶體缺到2028年都不一定緩解

台股站穩3萬3大關！終場大漲668點創史上新高 台積電衝1880元新天價

台灣汽車一旦零關稅真相很殘酷 經濟部下午召車廠盤點生死衝擊

台塑、南亞、台化千億元聯貸案完成簽約 10年最大規模、連結ESG推動轉型

聯電、世界先進...受惠晶圓代工「產能排擠」效應，2台廠受注目

留言 19

請更新您的瀏覽器

獨家／30年來第一次見到這現象　力積電黃崇仁：記憶體缺到2028年都不一定緩解

台股站穩3萬3大關！終場大漲668點創史上新高　台積電衝1880元新天價

台灣汽車一旦零關稅真相很殘酷　經濟部下午召車廠盤點生死衝擊

台塑、南亞、台化千億元聯貸案完成簽約　10年最大規模、連結ESG推動轉型