中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市,關鍵在於其相對低廉的訓練成本,不過深入分析其過程就知道,並不是花 600 萬美元就能複製一個相同的模型。
無論華爾街玩的是什麼套路,DeepSeek R1 模型真正讓人驚歎的,是它極度便宜的訓練成本,根據 DeepSeek 宣稱,訓練成本僅 557.6 萬美元,幾乎是其他科技巨頭大型語言模型的十分之一成本,這個費用也差不多是一位 AI 主管的年薪而已。
這個驚人的宣示實際上未必如此驚天動地,我們需要一步步拆解他們的模型訓練方式,就能了解其中奧妙。
首先,DeepSeek 和 R1 模型並非一步登天,R1 模型的訓練費用其實和去年底發佈的 V3 模型相同,而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。
在 V2 模型裡,他們導入了兩個重要的元件:DeepSeekMoE 和 DeepSeekMLA,前者代表了多重專家混合(Mixture of Experts),和 ChatGPT4 一樣,他們將訓練出的 AI 分為多種專家,根據對話內容調用合適領域的專家,以達成更精準而高效率的回應。後者則是多頭潛在注意力機制(Multi-Head Latent Attention),在 AI 對話中,需要載入模型和文本,每個 token 需要對應的 key 和 value,MLA 則能夠壓縮 value 的儲存空間,進而減少記憶體需求。
▲DeepSeek V3 模型架構圖。(Source:Github)
到了 V3 模型,他們再根據以上基礎,導入負載平衡和多重 token 預測機制,進一步提升訓練效率,根據 DeepSeek 宣稱,訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時,依每工時 2 美元推算,整體訓練成本就是 557.6 萬美元。
而 R1 模型的訓練成本據稱與 V3 模型相同,換言之,想要做出 R1 模型,並不是拿 H800 跑 280 萬個工時就能做出來,還必須有前置研究、反覆實驗和前置演算法架構。
相反地,從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下,甚至有自己的優勢,既然 DeepSeek 是開源架構,就代表其他科技巨頭可以用相似的模組,投入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組,如此則能獲得十倍於 DeepSeek R1 的成果。
從這個角度來看,你覺得 NVIDIA 有什麼好緊張的嗎?
(首圖來源:NVIDIA)
霧隱天秀 又來了 看看你這篇文章的發布時間 跟現在的時間好嗎?去你媽的!
2天前
張耀仁 老黃高招!不戳破老共造假!
卻反而淡淡的說,老共需要買更多!
讓老共有台階,免得被封殺!
看看今天香港股市,這麼破天荒的大事,結果才漲30點,而且沒多久就下跌!
就知道了,中國人也清楚這是吹噓造假!
不玩了!
2天前
莊蘭蕙 你有可能用600萬美金做思想審查嗎?
2天前
顯示全部