請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

訓練成本不到 600 萬美元,中國 AI 公司開源 DeepSeek-V3 新模型

科技新報

更新於 2天前 • 發布於 2024年12月30日12:59

中國幻方成立的 AI 研究公司 DeepSeek,近日發表並開源全新 DeepSeek-V3 模型,引發業界討論,可能是目前市場上最強大的開源模型。

DeepSeek-V3 是一款強大的 MoE(Mixture of Experts Models,混合專家模型),使用 MoE 架構僅啟動選定的參數,以便準確處理給定的任務。DeepSeek-V3 可以處理一系列以文字為基礎的工作負載和任務,例如根據提示指令來編寫程式碼、翻譯、協助撰寫論文和電子郵件等。

DeepSeek 宣稱 DeepSeek-V3 是在包含 14.8 兆 token 資料集進行預訓練,不只資料集龐大,DeepSeek-V3 參數規模也非常龐大,有 6,710 億參數(671B),大約是 Llama 3.1 4,050 億參數(405B)的 1.6 倍。DeepSeek 也說明,Hugging Face 平台上的 DeepSeek-V3 模型總參數為 6,850 億參數(685B),其中包括 6,710 億參數的主模型權重以及 140 億參數的 MTP 模組權重。

根據 DeepSeek 的內部基準測試,DeepSeek-V3 性能勝過可下載的「開放」模型和只能透過 API 存取的「封閉」模型,例如在稱為 Codeforces 的線上程式設計挑戰賽,DeepSeek-V3 表現,勝過如 Meta Llama 3.1 405B、OpenAI GPT-4o 及阿里巴巴通義千問 Qwen2.5 72B。

▲ DeepSeek-V3 性能優於其他開源模型,且能媲美領先的封閉模型性能。(Source:GitHub

DeepSeek 在大約 2 個月內,使用專為中國市場設計的 NVIDIA H800 GPU 訓練 DeepSeek-V3,更宣稱只花 557 萬美元完成訓練,相比 Meta 訓練 Llama 3.1 估計投資超過 5 億美元,DeepSeek 的技術大幅省下成本。

DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).

For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B

— Andrej Karpathy (@karpathy) December 26, 2024

▲ OpenAI 共同創辦人 Andrej Karpathy 對 DeepSeek-V3 提出看法。

幻方的創始團隊在 2015 年組成,從零開始探索全自動化交易,到了 2015 年創立幻方量化,依靠數學與 AI 進行量化投資。2019 年註冊成立幻方 AI,致力於 AI 演算法與基礎應用研究,隨後自行研發幻方「螢火一號」AI 叢集,配備 500 張顯卡、使用 200Gbps 高速網路互連,2020 年「螢火一號」正式投入使用、2021 年投資 10 億人民幣進一步推出「螢火二號」。

幻方在 2023 年 4 月宣布成立一家研究公司即 DeepSeek,探索 AGI(Artificial General Intelligence,通用人工智慧)的本質。推出 DeepSeek-V3 之前,DeepSeek 11 月底推出 DeepSeek-R1 模型,是對 OpenAI o1 模型所做的回應。

▲ 有人直接提問,結果 DeepSeek 直接回答它是以 GPT-4 為基礎來進行架構訓練。

網路上也有人發現 DeepSeek 似乎直接用了 OpenAI 的 GPT-4 來進行模型架構訓練,也不免引發這樣的方式是否合理外,也顯示 AI 語言模型之間競爭激烈,在交叉運用下,各模型之間的落差也可能逐步縮小,先行者的優勢可能會因而遞減。

(首圖來源:Image by Freepik

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0

留言 1

  • Jerrome
    全世界準備向中國採購了..性價比超高的產品👍👍👍👍👍
    2024年12月30日07:29
顯示全部