訓練成本不到 600 萬美元，中國 AI 公司開源 DeepSeek-V3 新模型

中國幻方成立的 AI 研究公司 DeepSeek，近日發表並開源全新 DeepSeek-V3 模型，引發業界討論，可能是目前市場上最強大的開源模型。

DeepSeek-V3 是一款強大的 MoE（Mixture of Experts Models，混合專家模型），使用 MoE 架構僅啟動選定的參數，以便準確處理給定的任務。DeepSeek-V3 可以處理一系列以文字為基礎的工作負載和任務，例如根據提示指令來編寫程式碼、翻譯、協助撰寫論文和電子郵件等。

DeepSeek 宣稱 DeepSeek-V3 是在包含 14.8 兆 token 資料集進行預訓練，不只資料集龐大，DeepSeek-V3 參數規模也非常龐大，有 6,710 億參數（671B），大約是 Llama 3.1 4,050 億參數（405B）的 1.6 倍。DeepSeek 也說明，Hugging Face 平台上的 DeepSeek-V3 模型總參數為 6,850 億參數（685B），其中包括 6,710 億參數的主模型權重以及 140 億參數的 MTP 模組權重。

根據 DeepSeek 的內部基準測試，DeepSeek-V3 性能勝過可下載的「開放」模型和只能透過 API 存取的「封閉」模型，例如在稱為 Codeforces 的線上程式設計挑戰賽，DeepSeek-V3 表現，勝過如 Meta Llama 3.1 405B、OpenAI GPT-4o 及阿里巴巴通義千問 Qwen2.5 72B。

▲ DeepSeek-V3 性能優於其他開源模型，且能媲美領先的封閉模型性能。（Source：GitHub）

DeepSeek 在大約 2 個月內，使用專為中國市場設計的 NVIDIA H800 GPU 訓練 DeepSeek-V3，更宣稱只花 557 萬美元完成訓練，相比 Meta 訓練 Llama 3.1 估計投資超過 5 億美元，DeepSeek 的技術大幅省下成本。

DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).
For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B
— Andrej Karpathy (@karpathy) December 26, 2024

▲ OpenAI 共同創辦人 Andrej Karpathy 對 DeepSeek-V3 提出看法。

幻方的創始團隊在 2015 年組成，從零開始探索全自動化交易，到了 2015 年創立幻方量化，依靠數學與 AI 進行量化投資。2019 年註冊成立幻方 AI，致力於 AI 演算法與基礎應用研究，隨後自行研發幻方「螢火一號」AI 叢集，配備 500 張顯卡、使用 200Gbps 高速網路互連，2020 年「螢火一號」正式投入使用、2021 年投資 10 億人民幣進一步推出「螢火二號」。

幻方在 2023 年 4 月宣布成立一家研究公司即 DeepSeek，探索 AGI（Artificial General Intelligence，通用人工智慧）的本質。推出 DeepSeek-V3 之前，DeepSeek 11 月底推出 DeepSeek-R1 模型，是對 OpenAI o1 模型所做的回應。

▲ 有人直接提問，結果 DeepSeek 直接回答它是以 GPT-4 為基礎來進行架構訓練。

網路上也有人發現 DeepSeek 似乎直接用了 OpenAI 的 GPT-4 來進行模型架構訓練，也不免引發這樣的方式是否合理外，也顯示 AI 語言模型之間競爭激烈，在交叉運用下，各模型之間的落差也可能逐步縮小，先行者的優勢可能會因而遞減。

（首圖來源：Image by Freepik）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

留言 1