Hot Chips 2024 》降低 GPU 集群算力閒置率的 Enfabrica

所謂「靠著越近，走得越快」，「本質上不是定律」的摩爾定律預言的電晶體成長曲線，加速單一晶片「聚合」越來越多樣化功能，自然也因拉近距離而增進資料傳輸效能，對蓬勃發展的 AI 資料中心亦一體適用。

目前 AI 算力的軍備競賽領域，Nvidia GPU 幾近壟斷，無論 P100、V100、A100、H100、H200 與近期的 B200A（B102）與 B200，無不是當代旗艦 AI 晶片的標竿。

但長期而言，即使 Nvidia 擁有獨家 NVLink 與 Mellanox 的 InfiniBand／乙太網路，分別對應垂直擴充（Scale-Up）和水平擴展（Scale-Out），並展現優異的延展性，但終將面臨潛在問題，就是部署資料中心的 GPU 算力集群，當規模膨脹到某種程度，會因為互連網路無法足夠即時餵食資料，導致無法滿載運行而浪費算力，提高總體使用成本。

探索 Nvidia 的多重護城河：不只有 CUDA，NVLink 串連頻寬更難跨越

SemiAnalysis 分析師 Dylan Patel 曾指出，每代晶片運算能力，成長速度都遠超過資料輸出與輸入（與筆者必須補充：記憶體頻寬），且這種「不匹配性」變得越來越嚴重。

2020 年，博通（Broadcom）工程總監 Rochan Sankar 與 Google 負責網路平台架構的 Shrijett Mukherjee 聯手創建 Enfabrica，前者擔任執行長，後者是開發長，超過 120 名工程師的核心團隊來自英特爾、思科（Cisco）、Facebook（Meta）等公司資深員工。Rochan Sankar 表示，AI 基礎設施的擴展是當年 AI 革命的最大挑戰，現有交換機等傳統網路晶片，難以滿足現代 AI 工作負載的資料移動需求。

▲ Enfabrica 成立於 2020 年，從命名的「Fabric」就可感受到這是一間想做出什麼東西的公司。

有鑑於此，Enfabrica 推出「加速運算結構交換器」（Accelerated Compute Fabric，ACF），將密集乙太網路界面、大型 PCIe 換器、高性能記憶體管理單元融合成單一晶片，消除各類型機架式網路交換機、伺服器網路卡和 PCIe 交換器，旨在解決 AI 和高性能計算（HPC）的網路、I/O 和記憶體擴展問題。

ACF 設備可直接連接 CPU、GPU 和各式各樣加速器，提升資料傳輸效率，降低延遲，提高 AI 模型訓練和推理效能。Enfabrica 說，使用 ACF 可將 GPU 提高 50% 計算節點利用率與降低 50% 的 I/O 功耗，降低 AI 訓練和推理成本。

進一步說，ACF 能推動記憶體分層結構，幫助 GPU 運算集群打破「記憶體牆」（Memory Wall），不僅能讓 GPU 算力池連結數十 TB 容量的 CXL.mem 遠端記憶體，並透過 800GbE 網路和 RDMA 存取分散在運算集群其餘部分的 PB 級記憶體空間，建構出由近端記憶體（GPU）、遠端記憶體（CXL）與網路記憶體（RDMA）組成的記憶體階層，每層皆有嚴格延遲限制。透過 ACF，執行資料處理的 GPU 集群能從不同來源提取資料，而不會碰到速度障礙。

讓共用記憶體儲存池逐步成為現實的 CXL 詳解

▲ 這是傳統的「垂直擴展」（Scale-Up）多處理器系統，有一致性記憶體，用行程間通訊（IPC，Inter-Process Communication）互通有無即可。

▲ 然後系統開始「水平延展」（Scale-Out），透過遠端程序呼叫（RPC，Remote Procedure Call）溝通彼此，因此開始用到乙太網路（標注綠線）之類的標準連結。

▲ 現在單一運算節點就可能出現複雜架構，無論對內連結多個 GPU 或對外乙太網路。綠線仍是乙太網路，藍線是 PCIe。

▲ 現代超大規模AI資料中心的運算集群非常龐大且複雜，對垂直擴展和水平延展都是重大挑戰。

▲ Enfabrica ACF 藉整合 PCIe 交換器和網路晶片，同時對 Scale-Up 的 IPC 與 Scale-Out 的 RPC 提供充沛頻寬，並大幅簡化整體的系統架構。

▲ 進而擴充為更巨大系統，統一 Scale-Up 和 Scale-Out 的通訊架構。

▲ 代號 Millennium 的 Enfabrica 首顆 ACF 晶片，分別有連接 CPU / GPU 的 PCIe 5+Tbps 與對應乙太網路的 3.2Tbps 理論頻寬，可透過外部 Arm 處理器管理基礎設施，並內建專用記憶體管理單元負責資料搬移。

▲ 如何有效搬移資料是決定大型 AI 集群實際利用效率的關鍵。

▲ 藉外部 Arm 處理器執行 AFS 驅動程式，可程式化操作資料傳輸。

▲ 左側乙太網路界面最多可設定成 32 埠 100GbE / 16 埠 200GbE / 8 埠 400GbE / 4 埠 800GbE，右側的 PCIe 交換器可切成十組 PCIe Gen5 x16（支援 CXL 2.0）或八組 PCIe Gen6 x16。

▲ 5 奈米製程（應該是台積電）製造，470 億電晶體，內建超過 300MB 容量的 SRAM 記憶體，功耗 250W。

▲ Enfabrica 列出四點與一般網路晶片的差異點：更高的 I/O 密度、透過 Crossbar 完全連接的乙太網路控制器、可擴展的記憶體位址轉換機能、共享的流量緩衝區與封包處理單元。

▲ 超高 I/O 密度：乙太網路界面與 PCIe 採用多對多連結，後者並支援 CXL 2.0，可擴展外部記憶體，這裡也可以看出乙太網路界面和 PCIe 控制器的可能組態。

▲ 透過 Crossbar 完全連接的乙太網路控制器：NIC 兩側均連結 Crossbar，可充分發揮 3.2Tbps Super NIC 的海量頻寬。

▲ 可擴展的記憶體位址轉換：套用 IBM 商業大型主機的邏輯，Millennium 部署超級暴力的 IOMMU（I/O Memory Management Unit）。

▲ 共享的流量緩衝區與封包處理單元：避免壅塞，確保封包流動順暢。

▲ 綜合以上數點，這是ㄧ顆有大量 I/O 的 3.2Tbps Super NIC，不只有多個乙太網路界面，並高度整合乙太網路交換器和 PCIe 交換器的功能。

▲ 使用 ACF 可在單一乙太網路交換層擴展到 1024 個 GPU，而不只是單一台 51.2Tbps 機櫃頂端（Top-of-Rack，ToR）乙太網路交換器的 32 個。

▲ 如擴張到兩個乙太網路交換層，更可擴充至 544,288 個 GPU。

▲ 因為有從 GPU 到乙太網路多條連結，如發生故障，GPU 會出現效能問題，所以晶片會自動替封包找到另一條更可靠的路徑。

▲ 這是總結，Enfabrica 的 ACF 晶片可簡化 AI 運算集群的網路連接架構，並降低 GPU 閒置率。可惜尚未看到導入客戶名單。

2023 年 9 月，Enfabrica 完成 1.25 億美元 B 輪融資，由 Atreides Management 領投，Nvidia 等公司參投，使公司估值較前一輪成長五倍多，累計融資達 1.48 億美元，這筆資金將推進 ACF 設備的生產和公司業務擴張，向雲端服務業者和資料中心銷售晶片與解決方案，不會與客戶正面競爭。

不過這顯而易見又極度迫切的 AI 產業需要，業界巨頭如思科和博通亦耕耘已久，前者 Silicon One G200/G202 和後者 Jericho-3 AI 也是 Enfabrica 即將遭遇的競爭對手，搞不好哪天 Enfabrica 又突然變成某大廠收購標的，最起碼，投資者之一的 Nvidia。

（首圖來源：Enfabrica）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

過世22年照樣拿第一！股市大亨家族「狂賴35億」連17年霸榜　驚人追討期限曝

台股交易時間延長？證交所董座鬆口：傾向不午休「一盤到底」

獨家／台灣散熱大廠遭駭客勒索200萬美金　2TB機密恐外洩

最賺錢企業排行揭曉！台積電名次曝光、冠軍還是它

市值破3兆沒免費午餐！輝達要員工自費買咖啡、零食　黃仁勳反享樂內幕曝

吳乃仁「看守所管收12天」獲釋！台糖曝原因：並非主動撤回聲請

請更新您的瀏覽器啟用Javascript