請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

不,你無法用 600 萬美元複製一個 DeepSeek R1

科技新報

更新於 2025年01月28日11:06 • 發布於 2025年01月28日10:56

中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市,關鍵在於其相對低廉的訓練成本,不過深入分析其過程就知道,並不是花 600 萬美元就能複製一個相同的模型。

無論華爾街玩的是什麼套路,DeepSeek R1 模型真正讓人驚歎的,是它極度便宜的訓練成本,根據 DeepSeek 宣稱,訓練成本僅 557.6 萬美元,幾乎是其他科技巨頭大型語言模型的十分之一成本,這個費用也差不多是一位 AI 主管的年薪而已。

這個驚人的宣示實際上未必如此驚天動地,我們需要一步步拆解他們的模型訓練方式,就能了解其中奧妙。

首先,DeepSeek 和 R1 模型並非一步登天,R1 模型的訓練費用其實和去年底發佈的 V3 模型相同,而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。

在 V2 模型裡,他們導入了兩個重要的元件:DeepSeekMoE 和 DeepSeekMLA,前者代表了多重專家混合(Mixture of Experts),和 ChatGPT4 一樣,他們將訓練出的 AI 分為多種專家,根據對話內容調用合適領域的專家,以達成更精準而高效率的回應。後者則是多頭潛在注意力機制(Multi-Head Latent Attention),在 AI 對話中,需要載入模型和文本,每個 token 需要對應的 key 和 value,MLA 則能夠壓縮 value 的儲存空間,進而減少記憶體需求。

▲DeepSeek V3 模型架構圖。(Source:Github

到了 V3 模型,他們再根據以上基礎,導入負載平衡和多重 token 預測機制,進一步提升訓練效率,根據 DeepSeek 宣稱,訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時,依每工時 2 美元推算,整體訓練成本就是 557.6 萬美元。

而 R1 模型的訓練成本據稱與 V3 模型相同,換言之,想要做出 R1 模型,並不是拿 H800 跑 280 萬個工時就能做出來,還必須有前置研究、反覆實驗和前置演算法架構。

相反地,從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下,甚至有自己的優勢,既然 DeepSeek 是開源架構,就代表其他科技巨頭可以用相似的模組,投入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組,如此則能獲得十倍於 DeepSeek R1 的成果。

從這個角度來看,你覺得 NVIDIA 有什麼好緊張的嗎?

(首圖來源:NVIDIA

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

神山造富/台積電上2千元 造出23位副總全員身價破億元榮景

鏡報
02

台積電遭列注意股 股價站上2000元市值破52兆!什麼是注意股一次看懂

三立新聞網
03

台積電罕見被列「注意股票」 股價突破2000元 再漲下去就進入「處置股票」?

信傳媒
04

法人、散戶狂買 台積電站上2000元大關!台股上漲逾400點衝35192點創新高

鏡報
05

表) 2026金馬年「股利行情」可期! 金控、銀行、證券股配息預估一次看

新頭殼
06

【討論】台股除了台積電,還有哪幾檔值得長抱?

熱議話題
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 3

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...