來自中國的 DeepSeek(深度求索)自 24 日展開為期 5 天的「開源週」,計劃開源 5 個程式庫,希望以完全透明的方式分享該團隊的開發進展,為開源社群做出貢獻。
「開源週」來到第 2 天,DeepSeek 發表 DeepEP,是一套用於 MoE(Mixture of Experts Models,混合專家模型)訓練和推理的開源 EP(expert parallelism)通訊程式庫,它提供高吞吐量和低延遲的全互連 GPU 核心。它還支援低精度運算,包括 FP8。
為了與 DeepSeek-V3 論文提及的演算法一致,DeepEP 提供一組針對非對稱領域頻寬轉發進行最佳化的核心,例如從 NVLink 領域轉發數據到 RDMA 領域,這些核心具有很高的吞吐量,適合訓練和推理預填任務。對於延遲性較敏感的推理解碼,DeepEP 包括一組具有純 RDMA 的低延遲核心,以最大程度減少延遲。
DeepSeek 可說是是一項專門為多 GPU 系統實現高吞吐量、低延遲數據交換所設計的工具,以靈活控制 GPU 資源。
▲ DeepSeek 發表用於 MoE 訓練和推理的開源 EP 通訊程式庫「DeepEP」。
值得關注還有第 1 天所發表的 FlashMLA,是針對 NVIDIA Hopper 架構 GPU 進行最佳化的高效 MLA(Multi-Head Latent Attention,多頭潛在注意力)解碼核心,涵蓋 H100、H200、H800,不僅將 AI 推理的記憶體頻寬推升至 3000 GB/s 的驚人水準,更有高達 580 TFLOPS 的運算性能。
換個角度來看,FlashMLA 使 GPU 運算方式最佳化、推理速度提升,可使像是 H800 的推理性能提升 2~3 倍。
▲ 針對 NVIDIA Hopper 架構 GPU 進行最佳化的「FlashMLA」。
(首圖來源:shutterstock)
張耀仁 免錢最貴,等銀行密碼、公司機密通通被撈走!
就不要哭!
02月26日01:23
黃君華 讚! 自由 開放 就是王道
02月25日23:06
顯示全部