所謂「靠著越近,走得越快」,「本質上不是定律」的摩爾定律預言的電晶體成長曲線,加速單一晶片「聚合」越來越多樣化功能,自然也因拉近距離而增進資料傳輸效能,對蓬勃發展的 AI 資料中心亦一體適用。
目前 AI 算力的軍備競賽領域,Nvidia GPU 幾近壟斷,無論 P100、V100、A100、H100、H200 與近期的 B200A(B102)與 B200,無不是當代旗艦 AI 晶片的標竿。
但長期而言,即使 Nvidia 擁有獨家 NVLink 與 Mellanox 的 InfiniBand/乙太網路,分別對應垂直擴充(Scale-Up)和水平擴展(Scale-Out),並展現優異的延展性,但終將面臨潛在問題,就是部署資料中心的 GPU 算力集群,當規模膨脹到某種程度,會因為互連網路無法足夠即時餵食資料,導致無法滿載運行而浪費算力,提高總體使用成本。
SemiAnalysis 分析師 Dylan Patel 曾指出,每代晶片運算能力,成長速度都遠超過資料輸出與輸入(與筆者必須補充:記憶體頻寬),且這種「不匹配性」變得越來越嚴重。
2020 年,博通(Broadcom)工程總監 Rochan Sankar 與 Google 負責網路平台架構的 Shrijett Mukherjee 聯手創建 Enfabrica,前者擔任執行長,後者是開發長,超過 120 名工程師的核心團隊來自英特爾、思科(Cisco)、Facebook(Meta)等公司資深員工。Rochan Sankar 表示,AI 基礎設施的擴展是當年 AI 革命的最大挑戰,現有交換機等傳統網路晶片,難以滿足現代 AI 工作負載的資料移動需求。
▲ Enfabrica 成立於 2020 年,從命名的「Fabric」就可感受到這是一間想做出什麼東西的公司。
有鑑於此,Enfabrica 推出「加速運算結構交換器」(Accelerated Compute Fabric,ACF),將密集乙太網路界面、大型 PCIe 換器、高性能記憶體管理單元融合成單一晶片,消除各類型機架式網路交換機、伺服器網路卡和 PCIe 交換器,旨在解決 AI 和高性能計算(HPC)的網路、I/O 和記憶體擴展問題。
ACF 設備可直接連接 CPU、GPU 和各式各樣加速器,提升資料傳輸效率,降低延遲,提高 AI 模型訓練和推理效能。Enfabrica 說,使用 ACF 可將 GPU 提高 50% 計算節點利用率與降低 50% 的 I/O 功耗,降低 AI 訓練和推理成本。
進一步說,ACF 能推動記憶體分層結構,幫助 GPU 運算集群打破「記憶體牆」(Memory Wall),不僅能讓 GPU 算力池連結數十 TB 容量的 CXL.mem 遠端記憶體,並透過 800GbE 網路和 RDMA 存取分散在運算集群其餘部分的 PB 級記憶體空間,建構出由近端記憶體(GPU)、遠端記憶體(CXL)與網路記憶體(RDMA)組成的記憶體階層,每層皆有嚴格延遲限制。透過 ACF,執行資料處理的 GPU 集群能從不同來源提取資料,而不會碰到速度障礙。
▲ 這是傳統的「垂直擴展」(Scale-Up)多處理器系統,有一致性記憶體,用行程間通訊(IPC,Inter-Process Communication)互通有無即可。
▲ 然後系統開始「水平延展」(Scale-Out),透過遠端程序呼叫(RPC,Remote Procedure Call)溝通彼此,因此開始用到乙太網路(標注綠線)之類的標準連結。
▲ 現在單一運算節點就可能出現複雜架構,無論對內連結多個 GPU 或對外乙太網路。綠線仍是乙太網路,藍線是 PCIe。
▲ 現代超大規模AI資料中心的運算集群非常龐大且複雜,對垂直擴展和水平延展都是重大挑戰。
▲ Enfabrica ACF 藉整合 PCIe 交換器和網路晶片,同時對 Scale-Up 的 IPC 與 Scale-Out 的 RPC 提供充沛頻寬,並大幅簡化整體的系統架構。
▲ 進而擴充為更巨大系統,統一 Scale-Up 和 Scale-Out 的通訊架構。
▲ 代號 Millennium 的 Enfabrica 首顆 ACF 晶片,分別有連接 CPU / GPU 的 PCIe 5+Tbps 與對應乙太網路的 3.2Tbps 理論頻寬,可透過外部 Arm 處理器管理基礎設施,並內建專用記憶體管理單元負責資料搬移。
▲ 如何有效搬移資料是決定大型 AI 集群實際利用效率的關鍵。
▲ 藉外部 Arm 處理器執行 AFS 驅動程式,可程式化操作資料傳輸。
▲ 左側乙太網路界面最多可設定成 32 埠 100GbE / 16 埠 200GbE / 8 埠 400GbE / 4 埠 800GbE,右側的 PCIe 交換器可切成十組 PCIe Gen5 x16(支援 CXL 2.0)或八組 PCIe Gen6 x16。
▲ 5 奈米製程(應該是台積電)製造,470 億電晶體,內建超過 300MB 容量的 SRAM 記憶體,功耗 250W。
▲ Enfabrica 列出四點與一般網路晶片的差異點:更高的 I/O 密度、透過 Crossbar 完全連接的乙太網路控制器、可擴展的記憶體位址轉換機能、共享的流量緩衝區與封包處理單元。
▲ 超高 I/O 密度:乙太網路界面與 PCIe 採用多對多連結,後者並支援 CXL 2.0,可擴展外部記憶體,這裡也可以看出乙太網路界面和 PCIe 控制器的可能組態。
▲ 透過 Crossbar 完全連接的乙太網路控制器:NIC 兩側均連結 Crossbar,可充分發揮 3.2Tbps Super NIC 的海量頻寬。
▲ 可擴展的記憶體位址轉換:套用 IBM 商業大型主機的邏輯,Millennium 部署超級暴力的 IOMMU(I/O Memory Management Unit)。
▲ 共享的流量緩衝區與封包處理單元:避免壅塞,確保封包流動順暢。
▲ 綜合以上數點,這是ㄧ顆有大量 I/O 的 3.2Tbps Super NIC,不只有多個乙太網路界面,並高度整合乙太網路交換器和 PCIe 交換器的功能。
▲ 使用 ACF 可在單一乙太網路交換層擴展到 1024 個 GPU,而不只是單一台 51.2Tbps 機櫃頂端(Top-of-Rack,ToR)乙太網路交換器的 32 個。
▲ 如擴張到兩個乙太網路交換層,更可擴充至 544,288 個 GPU。
▲ 因為有從 GPU 到乙太網路多條連結,如發生故障,GPU 會出現效能問題,所以晶片會自動替封包找到另一條更可靠的路徑。
▲ 這是總結,Enfabrica 的 ACF 晶片可簡化 AI 運算集群的網路連接架構,並降低 GPU 閒置率。可惜尚未看到導入客戶名單。
2023 年 9 月,Enfabrica 完成 1.25 億美元 B 輪融資,由 Atreides Management 領投,Nvidia 等公司參投,使公司估值較前一輪成長五倍多,累計融資達 1.48 億美元,這筆資金將推進 ACF 設備的生產和公司業務擴張,向雲端服務業者和資料中心銷售晶片與解決方案,不會與客戶正面競爭。
不過這顯而易見又極度迫切的 AI 產業需要,業界巨頭如思科和博通亦耕耘已久,前者 Silicon One G200/G202 和後者 Jericho-3 AI 也是 Enfabrica 即將遭遇的競爭對手,搞不好哪天 Enfabrica 又突然變成某大廠收購標的,最起碼,投資者之一的 Nvidia。
(首圖來源:Enfabrica)