不，你無法用 600 萬美元複製一個 DeepSeek R1

中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市，關鍵在於其相對低廉的訓練成本，不過深入分析其過程就知道，並不是花 600 萬美元就能複製一個相同的模型。

無論華爾街玩的是什麼套路，DeepSeek R1 模型真正讓人驚歎的，是它極度便宜的訓練成本，根據 DeepSeek 宣稱，訓練成本僅 557.6 萬美元，幾乎是其他科技巨頭大型語言模型的十分之一成本，這個費用也差不多是一位 AI 主管的年薪而已。

這個驚人的宣示實際上未必如此驚天動地，我們需要一步步拆解他們的模型訓練方式，就能了解其中奧妙。

首先，DeepSeek 和 R1 模型並非一步登天，R1 模型的訓練費用其實和去年底發佈的 V3 模型相同，而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。

在 V2 模型裡，他們導入了兩個重要的元件：DeepSeekMoE 和 DeepSeekMLA，前者代表了多重專家混合（Mixture of Experts），和 ChatGPT4 一樣，他們將訓練出的 AI 分為多種專家，根據對話內容調用合適領域的專家，以達成更精準而高效率的回應。後者則是多頭潛在注意力機制（Multi-Head Latent Attention），在 AI 對話中，需要載入模型和文本，每個 token 需要對應的 key 和 value，MLA 則能夠壓縮 value 的儲存空間，進而減少記憶體需求。

▲DeepSeek V3 模型架構圖。（Source：Github）

到了 V3 模型，他們再根據以上基礎，導入負載平衡和多重 token 預測機制，進一步提升訓練效率，根據 DeepSeek 宣稱，訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時，依每工時 2 美元推算，整體訓練成本就是 557.6 萬美元。

而 R1 模型的訓練成本據稱與 V3 模型相同，換言之，想要做出 R1 模型，並不是拿 H800 跑 280 萬個工時就能做出來，還必須有前置研究、反覆實驗和前置演算法架構。

相反地，從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下，甚至有自己的優勢，既然 DeepSeek 是開源架構，就代表其他科技巨頭可以用相似的模組，投入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組，如此則能獲得十倍於 DeepSeek R1 的成果。

從這個角度來看，你覺得 NVIDIA 有什麼好緊張的嗎？

（首圖來源：NVIDIA）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報