請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

3箭齊發!DeepSeek開源第4天推三大更新 專家:優化並行策略讓大模型訓練飆升

anue鉅亨網

更新於 3小時前 • 發布於 3小時前
3箭齊發!DeepSeek開源第4天推三大更新 專家:優化並行策略讓大模型訓練飆升
3箭齊發!DeepSeek開源第4日推三大更新 專家:優化並行策略讓大模型訓練飆升

DeepSeek 在開源周第四天一連更新 DualPipe、EPLB 以及深入分析 V3/R1 模型中計算與通信重疊機制的優化並行策略等三項專案,讓大模型訓練更快,成本更低,還能保持頂尖性能,值得一提的是,DualPipe 是由 Jiashi Li、Chengqi Deng 和梁文峰共同研發。

《券商中國》報導,DeepSeek 今 (27) 日推出的優化並行策略是為了提高計算效率、減少資源浪費並最大化系統性能而設計的並行計算方案,這些策略通過合理分配任務、協調資源利用和減少通信開銷,實現在多核、分散式或異構系統中高效並行執行。優化並行策略需根據任務類型、數據規模、硬體環境靈活選擇,平衡計算、通信和存儲開銷,最終實現高效、可擴展的並行計算。

DualPipe 是 DeepSeek-V3 技術報告中提出的一種創新雙向流水線並行演算法,有網友對此表示,這是一個顛覆性的突破。「DualPipe 和 EPLB 讓大模型訓練更快、更便宜、更可持續,同時保持頂尖性能。」

至於 EPLB(專家並行負載均衡器),在使用 EP 時,不同的專家模組會被分配到不同的 GPU 上,由於各個專家的計算負載會隨當前任務而變化,因此保持各 GPU 間負載均衡至關重要,DeepSeek 研究人員採用冗餘專家(redundant experts)策略對高負載專家進行複製,隨後透過啟發式演算法將這些複製的專家合理分配到各 GPU 上,確保計算資源的平衡利用。

DeepSeek 還在 eplb.py 檔中開源 EP 負載均衡演算法,該演算法能根據估計的專家負載,計算出均衡的專家複製和放置方案。

負載均衡演算法提供了兩種策略,適用於不同場景,分別是層次負載均衡 (Hierarchical Load Balancing) 跟全域負載均衡(Global Load Balancing)。

此外,由於 DeepSeek-R1 的當地語系化部署已經引起廣泛關注,輝達也親自下場開源首個在 Blackwell 架構上優化的 DeepSeek-R1-FP4,這一新模型在推理輸送量上達到高達 21088 token 每秒,與 H100 的 844 token 每秒相比,提升幅度高達 25 倍,同時,每 token 的成本也實現了 20 倍的降低,此新模型的推出標誌著輝達在 AI 領域的又一次重大進展。

透過在 Blackwell 架構上應用 TensorRT DeepSeek 優化,讓具有 FP4 生產級精度的模型,在 MMLU 通用智慧基準測試中達到了 FP8 模型性能的 99.8%。

目前,輝達基於 FP4 優化的 DeepSeek-R1 檢查點已經在 Hugging Face 上開源,並且可通過以下連結訪問模型位址:DeepSeek-R1-FP4。在後訓練量化方面,該模型將 Transformer 模組內的線性算子的權重和啟動量化到了 FP4,適用於 TensorRT-LLM 推理。這一優化使每個參數的位數從 8 位減少到 4 位,從而讓磁碟空間和 GPU 顯存的需求減少約 1.6 倍。

使用 TensorRT-LLM 部署量化後的 FP4 權重文件,能為給定的提示生成文本回應,這需要支援 TensorRT-LLM 的英達 GPU(如 B200),並且需要 8 個 GPU 來實現 tensor_parallel_size=8 的張量並行。這段代碼利用 FP4 量化、TensorRT 引擎和並行計算,旨在實現高效、低成本的推理,適合生產環境或高輸送量應用。

對此網友們說,「FP4 魔法讓 AI 未來依然敏銳」,還說此次優化讓美國供應商能以每百萬 token 0.25 美元的價格提供 R1,甚至能夠獲利。

更多鉅亨報導

點我加鉅亨網LINE好友🔥財經大事不漏接

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0