請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

不,你無法用 600 萬美元複製一個 DeepSeek R1

科技新報

更新於 2天前 • 發布於 2天前

中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市,關鍵在於其相對低廉的訓練成本,不過深入分析其過程就知道,並不是花 600 萬美元就能複製一個相同的模型。

無論華爾街玩的是什麼套路,DeepSeek R1 模型真正讓人驚歎的,是它極度便宜的訓練成本,根據 DeepSeek 宣稱,訓練成本僅 557.6 萬美元,幾乎是其他科技巨頭大型語言模型的十分之一成本,這個費用也差不多是一位 AI 主管的年薪而已。

這個驚人的宣示實際上未必如此驚天動地,我們需要一步步拆解他們的模型訓練方式,就能了解其中奧妙。

首先,DeepSeek 和 R1 模型並非一步登天,R1 模型的訓練費用其實和去年底發佈的 V3 模型相同,而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。

在 V2 模型裡,他們導入了兩個重要的元件:DeepSeekMoE 和 DeepSeekMLA,前者代表了多重專家混合(Mixture of Experts),和 ChatGPT4 一樣,他們將訓練出的 AI 分為多種專家,根據對話內容調用合適領域的專家,以達成更精準而高效率的回應。後者則是多頭潛在注意力機制(Multi-Head Latent Attention),在 AI 對話中,需要載入模型和文本,每個 token 需要對應的 key 和 value,MLA 則能夠壓縮 value 的儲存空間,進而減少記憶體需求。

▲DeepSeek V3 模型架構圖。(Source:Github

到了 V3 模型,他們再根據以上基礎,導入負載平衡和多重 token 預測機制,進一步提升訓練效率,根據 DeepSeek 宣稱,訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時,依每工時 2 美元推算,整體訓練成本就是 557.6 萬美元。

而 R1 模型的訓練成本據稱與 V3 模型相同,換言之,想要做出 R1 模型,並不是拿 H800 跑 280 萬個工時就能做出來,還必須有前置研究、反覆實驗和前置演算法架構。

相反地,從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下,甚至有自己的優勢,既然 DeepSeek 是開源架構,就代表其他科技巨頭可以用相似的模組,投入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組,如此則能獲得十倍於 DeepSeek R1 的成果。

從這個角度來看,你覺得 NVIDIA 有什麼好緊張的嗎?

(首圖來源:NVIDIA

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0