靈活控制 GPU 運算資源，DeepSeek 開源釋出 DeepEP、FlashMLA

來自中國的 DeepSeek（深度求索）自 24 日展開為期 5 天的「開源週」，計劃開源 5 個程式庫，希望以完全透明的方式分享該團隊的開發進展，為開源社群做出貢獻。

「開源週」來到第 2 天，DeepSeek 發表 DeepEP，是一套用於 MoE（Mixture of Experts Models，混合專家模型）訓練和推理的開源 EP（expert parallelism）通訊程式庫，它提供高吞吐量和低延遲的全互連 GPU 核心。它還支援低精度運算，包括 FP8。

廣告（請繼續閱讀本文）

為了與 DeepSeek-V3 論文提及的演算法一致，DeepEP 提供一組針對非對稱領域頻寬轉發進行最佳化的核心，例如從 NVLink 領域轉發數據到 RDMA 領域，這些核心具有很高的吞吐量，適合訓練和推理預填任務。對於延遲性較敏感的推理解碼，DeepEP 包括一組具有純 RDMA 的低延遲核心，以最大程度減少延遲。

DeepSeek 可說是是一項專門為多 GPU 系統實現高吞吐量、低延遲數據交換所設計的工具，以靈活控制 GPU 資源。

▲ DeepSeek 發表用於 MoE 訓練和推理的開源 EP 通訊程式庫「DeepEP」。

廣告（請繼續閱讀本文）

值得關注還有第 1 天所發表的 FlashMLA，是針對 NVIDIA Hopper 架構 GPU 進行最佳化的高效 MLA（Multi-Head Latent Attention，多頭潛在注意力）解碼核心，涵蓋 H100、H200、H800，不僅將 AI 推理的記憶體頻寬推升至 3000 GB/s 的驚人水準，更有高達 580 TFLOPS 的運算性能。

換個角度來看，FlashMLA 使 GPU 運算方式最佳化、推理速度提升，可使像是 H800 的推理性能提升 2~3 倍。

▲ 針對 NVIDIA Hopper 架構 GPU 進行最佳化的「FlashMLA」。

（首圖來源：shutterstock）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

更多理財相關文章

查看更多科技新報的文章

靈活控制 GPU 運算資源，DeepSeek 開源釋出 DeepEP、FlashMLA

更多 理財 相關文章

查看更多 科技新報 的文章

更多理財相關文章

查看更多科技新報的文章