理財

靈活控制 GPU 運算資源,DeepSeek 開源釋出 DeepEP、FlashMLA

科技新報
更新於 02月26日04:41 • 發布於 02月25日16:34

來自中國的 DeepSeek(深度求索)自 24 日展開為期 5 天的「開源週」,計劃開源 5 個程式庫,希望以完全透明的方式分享該團隊的開發進展,為開源社群做出貢獻。

「開源週」來到第 2 天,DeepSeek 發表 DeepEP,是一套用於 MoE(Mixture of Experts Models,混合專家模型)訓練和推理的開源 EP(expert parallelism)通訊程式庫,它提供高吞吐量和低延遲的全互連 GPU 核心。它還支援低精度運算,包括 FP8。

廣告(請繼續閱讀本文)

為了與 DeepSeek-V3 論文提及的演算法一致,DeepEP 提供一組針對非對稱領域頻寬轉發進行最佳化的核心,例如從 NVLink 領域轉發數據到 RDMA 領域,這些核心具有很高的吞吐量,適合訓練和推理預填任務。對於延遲性較敏感的推理解碼,DeepEP 包括一組具有純 RDMA 的低延遲核心,以最大程度減少延遲。

DeepSeek 可說是是一項專門為多 GPU 系統實現高吞吐量、低延遲數據交換所設計的工具,以靈活控制 GPU 資源。

▲ DeepSeek 發表用於 MoE 訓練和推理的開源 EP 通訊程式庫「DeepEP」。

廣告(請繼續閱讀本文)

值得關注還有第 1 天所發表的 FlashMLA,是針對 NVIDIA Hopper 架構 GPU 進行最佳化的高效 MLA(Multi-Head Latent Attention,多頭潛在注意力)解碼核心,涵蓋 H100、H200、H800,不僅將 AI 推理的記憶體頻寬推升至 3000 GB/s 的驚人水準,更有高達 580 TFLOPS 的運算性能。

換個角度來看,FlashMLA 使 GPU 運算方式最佳化、推理速度提升,可使像是 H800 的推理性能提升 2~3 倍。

▲ 針對 NVIDIA Hopper 架構 GPU 進行最佳化的「FlashMLA」。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章
留言 2
  • 張耀仁
    免錢最貴,等銀行密碼、公司機密通通被撈走! 就不要哭!
    02月26日01:23
  • 黃君華
    讚! 自由 開放 就是王道
    02月25日23:06
顯示全部