理財

影片|DeepSeek懶人包:MLA架構強在哪?什麼是知識蒸餾?6大QA解密DeepSeek效應

數位時代
更新於 02月20日04:03 • 發布於 02月20日03:53

重點1 :DeepSeek的核心優勢在於效率和優化,其作為量化對沖基金孵化的背景,使其具備了追求效率和優化的基因。

重點2 :DeepSeek的創新源自團隊和方法論,例如DeepSeek的多頭潛在注意力架構(MLA)等創新技術,讓推理價格大幅降低,進而促進AI產業的競爭。

廣告(請繼續閱讀本文)

重點3 :DeepSeek模型確實存在審查問題,這將限制其在人文領域的發展,並可能阻礙通用人工智慧的實現。

在台灣農曆新年期間,中國DeepSeek在AI領域引發廣泛關注,其以「高性價比」的成本,訓練出媲美甚至超越OpenAI先進模型的產品,使其在競爭激烈的市場中投下利空因素,更讓輝達股價在5天內一度下跌16%。

Meta首席AI科學家Yann LeCun表示,DeepSeek 的成功,並不應該被看作中國(AI)超越了美國,應看作開源模型正在超越專有模型。

廣告(請繼續閱讀本文)

微軟執行長納德拉(satya nadella)則表示:「DeepSeek新模型令人印象深刻,尤其是在如何高效開發開源模型並進行推理運算方面,它的運算效率非常出色,我們應當非常認真地看待中國技術的進展。」

OpenAI推o3-mini應戰DeepSeek

面對DeepSeek橫空出世,OpenAI於2月1日火速推出全新推理模型o3-mini應戰,並在ChatGPT首次向所有用戶免費提供推理模型。

OpenAI執行長奧特曼近來公開表示,將重新思考 OpenAI的開源策略, 「我個人認為我們在了歷史錯誤的一邊,必須找出不同的開源策略,但並不是 OpenAI的每個人都同意這種觀點,這也不是我們目前的首要任務。」

奧特曼還說,OpenAI將效仿DeepSeek的做法,「我們很快就會展示一個更有用、更詳細的版本,感謝R1讓我們有所更新!」

奧特曼在貼文中強調,o3-mini在測驗中的結果贏過的R1。

一言以蔽之,DeepSeek最核心的優勢在於其效率和優化能力,《數位時代》以下將統整各方資訊為您解析其影響力。

文章目錄(點擊可直接前往該段落)

  • 誰打造了DeepSeek?
  • DeepSeek真的這麼省錢嗎?
  • DeepSeek的創新技術:MLA
  • 輝達「金鏟子」褪色了?
  • DeepSeek的省錢方式:AI蒸餾
  • DeepSeek有哪些限制?

DeepSeek由High-Flyer孵化!奠定高效基因

Semianalysis指出,DeepSeek是由中國對沖基金「幻方量化」(High-Flyer)於2023年成立的新創公司,對此獨立科技新聞記者高燦鳴(Tim Culpan)指出,DeepSeek的突破性進展,「可歸功於其獨特的量化背景。」

高燦鳴說,量化對沖基金的核心是從公開資訊中提取關鍵數據,並通過演算法進行分析和預測。而DeepSeek將這一邏輯應用於AI模型開發,捨棄不必要的數據,僅使用所需資訊,從而大幅降低了計算成本。

DeepSeek的創新得益於團隊的努力,例如多頭潛在注意力架構(MLA)的發明,便是其年輕研究員在總結現有注意力架構基礎上提出的創新方案。 對此,Semianalysis指出,MLA為DeepSeek團隊耗時個多月開發,其將每個查詢KV量(Key-Value Cache,簡稱KV Cache)減少93.3%,大幅降低推理價格。

Semianalysis指出,DeepSeek完全從中國本土尋找人才,不考慮以前的資歷,非常注重能力和好奇心,目前約有150名員工(但正在迅速增長),並定期從北大、浙大等招募頂尖人才。 據稱,有潛力的招募對象能拿到130萬美元(約新台幣4,312萬元)的薪資水準。

報導也指出,小型、資金充足且專注的新創公司往往能夠突破技術的邊界,「而DeepSeek正是這樣的例子,由於自籌資金,因此可以快速地實施新想法。」報導更直言, 「DeepSeek是目前最好的「開放權重」(open weights)實驗室,超越了 Meta 的 Llama、Mistral 等其他公司。」

DeepSeek真的這麼省錢嗎?

DeepSeek宣稱只使用2,048顆輝達「H800」GPU訓練,但這個說法外界產生質疑。例如,Scale AI執行長Alexandr Wang表示,DeepSeek至少有5萬顆高階的H100晶片, Semianalysis也指出,DeepSeek的硬體支出其實遠超過5億美元。

據Semianalysis計算, DeepSeek使用了50,000顆輝達Hopper架構GPU,當中包括10,000顆H800及10,000顆「H100」,還有輝達特供中國的「H20」,這些GPU主要用於AI訓練、研究及財務模型。

換算下來,DeepSeek的總資本支出約為16億美元,其中營運成本估計有9.44億美元,而對GPU的投資額超過5億美元。

據悉,美國政府懷疑DeepSeek可能透過新加坡中轉,迴避出口管制。 而據輝達財報,新加坡市場在2023財年Q3佔輝達營收9%,但到2025財年Q3增加至22%。 目前,美國白宮、FBI及國會議員已啟動調查,關切DeepSeek是否透過新加坡第三方公司購買美國禁售GPU。

據稱,DeepSeek擁有10,000顆「H100」晶片。

DeepSeek的創新技術:MLA

多頭潛在注意力架構(MLA)的主要貢獻在於,將KV Cache下降進而降低推理價格。

事實上 ,KV Cache 是 transformer 模型中的一種記憶體機制,用於存儲代表對話上下文的數據,從而減少不必要的計算,就像是一個暫存區,用來記住大型語言模型在生成文字時已經算過的東西,避免重複計算,讓模型跑得更快。

而由於MLA降低了計算成本,因此可以使用更少的資源訓練出性能良好的模型。這為開發小型化、高效的 AI 模型提供了可能,不但使得一些小型 AI 公司或新創企業,也能夠在大型語言模型領域取得突破,更進而加速 AI 創新,並可能改變 AI 產業競爭格局。

舉例而言,DeepSeek宣稱使用6,710億個參數進行訓練的「V3」模型,只用2,048顆輝達「H800」GPU費時2個月就訓練完成,相當於280萬個GPU小時。不過DeepSeek指出,這個數字僅涵蓋正式訓練模型的費用,並未納入跟「架構、演算法或資料研究與消融實驗(ablation experiment)」有關的成本。

相較之下,Facebook母公司Meta Platforms使用4,050億個參數訓練的「Llama 3」模型,花費的運算資源卻是V3的11倍(3,080萬個GPU小時),採用的超級電腦內建16,384顆「H100」GPU、費時54天。

總結而言,MLA的核心優勢在於降低計算複雜度,這意味著在相同的效能要求下,可以使用更少的計算資源,或是等級較低的 GPU 來完成 AI 模型的訓練和推論,而這可能會降低市場對輝達高階 GPU的需求,因為客戶不再需要大量昂貴的GPU,就能運行大型語言模型。

除此之外,MLA也可能會打破大型科技公司在AI領域的壟斷地位,形成更多元化的競爭格局,而輝達作為目前GPU的最大供應商,其市占率可能受到影響。這也是輝達股價在截至2月3日的近30天內,一口氣下跌13%(每股120.07美元)的主要原因。

輝達「金鏟子」褪色了?

那麼,在DeepSeek出現後,市場上的GPU需求,會因為成本下降而降低嗎?NVIDIA的護城河出了裂縫嗎?台大資工系教授洪士灝於臉書發文指出,「不需要做過度的詮釋。」

他強調,高階的晶片研發和製程都很燒錢,不是一般公司玩得起的,因此NVIDIA在高階市場上仍有其領先優勢。然而,不需要高階GPU的大算力與大記憶體就能訓練出具競爭力的大模型,並且提供價廉物美的推論服務,這樣的故事的確對NVIDIA的高階GPU的市場造成影響。

洪士灝說,整體而言,NVIDIA恐怕不能繼續以這些年慣用的高姿態宰制市場,影響比較大的是利潤。「不過我還是得說,目前NVIDIA在技術和生態系上還是領先對手的,需要大算力的最先進AI研發,還是需要NVIDIA晶片的。」

DeepSeek的省錢方式:AI蒸餾

據《路透社》報導,白宮高級顧問警告,DeepSeek可能受益於一種據稱借鑒美國競爭對手進步的「蒸餾」(distillation)方法,從美國的AI模型中「學習」,進而快速提升自身能力。

美國官員擔心,DeepSeek 可能透過這蒸餾技術「免費搭便車」,竊取美國科技公司如OpenAI、Google等投入巨額資金和時間開發的AI技術。此外,DeepSeek還開源程式碼,讓其他國家也能輕易取得這項技術,進一步減少美國的領先優勢。

據《華爾街日報》報導,OpenAI和Anthropic等公司的AI技術,基本上是利用大量原始數據從頭開始自學,這個過程通常需要數月和數千萬美元或更多。 然而,通過利用這些AI巨頭的工作結果,蒸餾可以讓後進者在幾周甚至幾天內創建一個幾乎同樣好的模型,而成本要低得多。

AI蒸餾(AI Distillation,又稱(knowledge distillation知識蒸餾) 是一種模型壓縮技術,主要目的是將一個大型的、複雜的深度學習模型 (通常稱為『教師模型』)的知識轉移到一個較小、更簡單的模型(通常稱為『學生模型』)中。這樣可以在保持模型性能的情況下,減少計算資源和儲存空間的需求,尤其適用於邊緣設備或計算資源有限的情境。

簡單來說,DeepSeek並非從零開始構建大型 AI 模型,而是利用其他公司(例如 OpenAI)生成的 tokens 進行學習和優化,這種做法類似於「站在巨人的肩膀上」,DeepSeek並非重新發明輪子,而是基於現有技術打造更輕便、更高效的「自行車」

DeepSeek有哪些限制?

儘管DeepSeek取得了顯著成就,但其模型中存在的審查問題,將限制其在人文領域的發展。若要實現通用人工智慧,DeepSeek必須解決這一難題。

現在很多人引誘DeepSeek說出敏感的政治內容,例如承認台灣是一個國家,或承認1989年天安門事件中有人員傷亡。高燦鳴指出,當服務給出符合中國官方說法的回答時,不少測試者就會興高采烈地宣稱「看吧!審查!」這種行為雖然有趣,但可能沒有什麼實際意義。

高燦鳴認為,審查真正的問題在於,為了符合審查要求,大量資訊被從訓練數據中移除,這導致 DeepSeek的知識體系是不完整的。

舉例來說,如果一個AI無法提及天安門事件,它就無法正確解釋鄧小平南巡(1992年1月18日~2月21日)的歷史意義,就像在解釋美國內戰時不提奴隸制度一樣,而這種知識體系的缺失,會嚴重影響AI對歷史、政治、社會等人文科目的理解。

延伸閱讀:DeepSeek一夕成AI當紅炸子雞,創辦人梁文鋒是誰?「一隻平凡的小豬」揭密
OpenAI推出最新AI代理Deep Research!這是什麼?厲害在哪?

資料來源:SemianalysisTim CulpanTechChurch36KRWSJBBC

本文初稿為AI編撰,整理.編輯/ 李先泰

延伸閱讀

OpenAI推o3-mini反擊DeepSeek,免費用戶也能用!特色、效能一次看
「晶片能封鎖,但開源鎖不住!」揭秘DeepSeek如何撼動美國AI壟斷:為何掐住晶片已經沒用了?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章
留言 19
  • Kuble Kuo
    中國人最擅長的就是吹噓膨風、偷搶拐騙!
    02月05日15:14
  • Steven
    賴清德大兒子 賴廷與37歲,逃兵役! 賴清德小兒子 賴廷彥32歲,沒當兵! 💩💩💩💩💩
    2天前
  • 牧文
    請參考: https://www.nownews.com/news/6635477 “奧特曼在《ReThinking》播客節目中,向華頓商學院的組織心理學家格蘭特(Adam Grant)對談,他表示未來人們將更重視「提問的能力」,而非純粹的智力優勢,「未來,比起找出答案,知道該問什麼問題將更加重要。」 格蘭特也補充道,學會提出「具啟發性且深刻的問題」,是能夠理解複雜事物、賦予概念背景的重要技能,他提到過去人們都把「腦中累積的知識量」當作決定了一個人聰明程度的標準,如今「能夠把資訊『串聯成線』的能力更為重要。」” 中共教育下的人就沒有優秀提問的能力,因為中共基本上不允許提問。這就是為什麼DeepSeek只能去向OpenAI去提取答案來作自己的數據基礎。所以事實上中共根本不可能從零開始教育自己的AI,好嗎? 中共在AI和任何其他和智慧財產權有關的技術上都只能抄襲別人。如果從來都是像杜鵑一樣把小孩生在別人的巢讓別人養大當成是自己的成就,那麼當然一輩子都只能被別人掐著自己的脖子,不是嗎?
    02月07日02:05
  • Gold 建
    Deepseek強?我看你就一知半解,對比下它不是最強的,重點是在開源跟小成本就能輕鬆建構,一般個人工作室與小企業現在都能輕易進入AI,打破此前只有大公司壟斷的ai門檻! 就像多年前電腦曾經是高昂的設備,直到個人電腦出現,人們不需要最厲害的機器,能滿足基本需求就好,普及後就帶動整個電腦產業起飛! Deepseek 只是個開端,最後笑不一定是他!後面開始會有許多ai後起之秀,因它而開始........
    2天前
  • Joe.
    AI天才少女花費不到2億,打造Deepseek媲美OpenAI (2億是私人企業出資) V.S. 天才數位大臣花了200億,打造點麵線系統 (200億是拿人民納稅錢)
    2天前
顯示全部