請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

Hot Chips 2024 》降低 GPU 集群算力閒置率的 Enfabrica

科技新報

更新於 2024年11月12日10:16 • 發布於 2024年11月12日07:50

所謂「靠著越近,走得越快」,「本質上不是定律」的摩爾定律預言的電晶體成長曲線,加速單一晶片「聚合」越來越多樣化功能,自然也因拉近距離而增進資料傳輸效能,對蓬勃發展的 AI 資料中心亦一體適用。

目前 AI 算力的軍備競賽領域,Nvidia GPU 幾近壟斷,無論 P100、V100、A100、H100、H200 與近期的 B200A(B102)與 B200,無不是當代旗艦 AI 晶片的標竿。

但長期而言,即使 Nvidia 擁有獨家 NVLink 與 Mellanox 的 InfiniBand/乙太網路,分別對應垂直擴充(Scale-Up)和水平擴展(Scale-Out),並展現優異的延展性,但終將面臨潛在問題,就是部署資料中心的 GPU 算力集群,當規模膨脹到某種程度,會因為互連網路無法足夠即時餵食資料,導致無法滿載運行而浪費算力,提高總體使用成本。

SemiAnalysis 分析師 Dylan Patel 曾指出,每代晶片運算能力,成長速度都遠超過資料輸出與輸入(與筆者必須補充:記憶體頻寬),且這種「不匹配性」變得越來越嚴重。

2020 年,博通(Broadcom)工程總監 Rochan Sankar 與 Google 負責網路平台架構的 Shrijett Mukherjee 聯手創建 Enfabrica,前者擔任執行長,後者是開發長,超過 120 名工程師的核心團隊來自英特爾、思科(Cisco)、Facebook(Meta)等公司資深員工。Rochan Sankar 表示,AI 基礎設施的擴展是當年 AI 革命的最大挑戰,現有交換機等傳統網路晶片,難以滿足現代 AI 工作負載的資料移動需求。

▲ Enfabrica 成立於 2020 年,從命名的「Fabric」就可感受到這是一間想做出什麼東西的公司。

有鑑於此,Enfabrica 推出「加速運算結構交換器」(Accelerated Compute Fabric,ACF),將密集乙太網路界面、大型 PCIe 換器、高性能記憶體管理單元融合成單一晶片,消除各類型機架式網路交換機、伺服器網路卡和 PCIe 交換器,旨在解決 AI 和高性能計算(HPC)的網路、I/O 和記憶體擴展問題。

ACF 設備可直接連接 CPU、GPU 和各式各樣加速器,提升資料傳輸效率,降低延遲,提高 AI 模型訓練和推理效能。Enfabrica 說,使用 ACF 可將 GPU 提高 50% 計算節點利用率與降低 50% 的 I/O 功耗,降低 AI 訓練和推理成本。

進一步說,ACF 能推動記憶體分層結構,幫助 GPU 運算集群打破「記憶體牆」(Memory Wall),不僅能讓 GPU 算力池連結數十 TB 容量的 CXL.mem 遠端記憶體,並透過 800GbE 網路和 RDMA 存取分散在運算集群其餘部分的 PB 級記憶體空間,建構出由近端記憶體(GPU)、遠端記憶體(CXL)與網路記憶體(RDMA)組成的記憶體階層,每層皆有嚴格延遲限制。透過 ACF,執行資料處理的 GPU 集群能從不同來源提取資料,而不會碰到速度障礙。

▲ 這是傳統的「垂直擴展」(Scale-Up)多處理器系統,有一致性記憶體,用行程間通訊(IPC,Inter-Process Communication)互通有無即可。

▲ 然後系統開始「水平延展」(Scale-Out),透過遠端程序呼叫(RPC,Remote Procedure Call)溝通彼此,因此開始用到乙太網路(標注綠線)之類的標準連結。

▲ 現在單一運算節點就可能出現複雜架構,無論對內連結多個 GPU 或對外乙太網路。綠線仍是乙太網路,藍線是 PCIe。

▲ 現代超大規模AI資料中心的運算集群非常龐大且複雜,對垂直擴展和水平延展都是重大挑戰。

▲ Enfabrica ACF 藉整合 PCIe 交換器和網路晶片,同時對 Scale-Up 的 IPC 與 Scale-Out 的 RPC 提供充沛頻寬,並大幅簡化整體的系統架構。

▲ 進而擴充為更巨大系統,統一 Scale-Up 和 Scale-Out 的通訊架構。

▲ 代號 Millennium 的 Enfabrica 首顆 ACF 晶片,分別有連接 CPU / GPU 的 PCIe 5+Tbps 與對應乙太網路的 3.2Tbps 理論頻寬,可透過外部 Arm 處理器管理基礎設施,並內建專用記憶體管理單元負責資料搬移。

▲ 如何有效搬移資料是決定大型 AI 集群實際利用效率的關鍵。

▲ 藉外部 Arm 處理器執行 AFS 驅動程式,可程式化操作資料傳輸。

▲ 左側乙太網路界面最多可設定成 32 埠 100GbE / 16 埠 200GbE / 8 埠 400GbE / 4 埠 800GbE,右側的 PCIe 交換器可切成十組 PCIe Gen5 x16(支援 CXL 2.0)或八組 PCIe Gen6 x16。

▲ 5 奈米製程(應該是台積電)製造,470 億電晶體,內建超過 300MB 容量的 SRAM 記憶體,功耗 250W。

▲ Enfabrica 列出四點與一般網路晶片的差異點:更高的 I/O 密度、透過 Crossbar 完全連接的乙太網路控制器、可擴展的記憶體位址轉換機能、共享的流量緩衝區與封包處理單元。

▲ 超高 I/O 密度:乙太網路界面與 PCIe 採用多對多連結,後者並支援 CXL 2.0,可擴展外部記憶體,這裡也可以看出乙太網路界面和 PCIe 控制器的可能組態。

▲ 透過 Crossbar 完全連接的乙太網路控制器:NIC 兩側均連結 Crossbar,可充分發揮 3.2Tbps Super NIC 的海量頻寬。

▲ 可擴展的記憶體位址轉換:套用 IBM 商業大型主機的邏輯,Millennium 部署超級暴力的 IOMMU(I/O Memory Management Unit)。

▲ 共享的流量緩衝區與封包處理單元:避免壅塞,確保封包流動順暢。

▲ 綜合以上數點,這是ㄧ顆有大量 I/O 的 3.2Tbps Super NIC,不只有多個乙太網路界面,並高度整合乙太網路交換器和 PCIe 交換器的功能。

▲ 使用 ACF 可在單一乙太網路交換層擴展到 1024 個 GPU,而不只是單一台 51.2Tbps 機櫃頂端(Top-of-Rack,ToR)乙太網路交換器的 32 個。

▲ 如擴張到兩個乙太網路交換層,更可擴充至 544,288 個 GPU。

▲ 因為有從 GPU 到乙太網路多條連結,如發生故障,GPU 會出現效能問題,所以晶片會自動替封包找到另一條更可靠的路徑。

▲ 這是總結,Enfabrica 的 ACF 晶片可簡化 AI 運算集群的網路連接架構,並降低 GPU 閒置率。可惜尚未看到導入客戶名單。

2023 年 9 月,Enfabrica 完成 1.25 億美元 B 輪融資,由 Atreides Management 領投,Nvidia 等公司參投,使公司估值較前一輪成長五倍多,累計融資達 1.48 億美元,這筆資金將推進 ACF 設備的生產和公司業務擴張,向雲端服務業者和資料中心銷售晶片與解決方案,不會與客戶正面競爭。

不過這顯而易見又極度迫切的 AI 產業需要,業界巨頭如思科和博通亦耕耘已久,前者 Silicon One G200/G202 和後者 Jericho-3 AI 也是 Enfabrica 即將遭遇的競爭對手,搞不好哪天 Enfabrica 又突然變成某大廠收購標的,最起碼,投資者之一的 Nvidia。

(首圖來源:Enfabrica

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

獨家/知名金控銀行驚傳上司掌摑同事案 勞動部回應了

三立新聞網
02

IG騙很大!設計師曝最雷裝潢 夢幻窗邊臥榻九成屋主做了就後悔

鏡報
03

台積電熊本二廠驚傳停工!日媒曝施工機具幾乎全撤 官方僅一句話回應

風傳媒
04

不請假的員工虧大了?勞動部修法讓全勤獎金「人人有份」,恐造成 5 大亂象

經理人月刊
05

零地主戶2/建商整合住戶闢豪宅賺一筆 從前銷售話術隱晦現在不藏了

CTWANT
06

防堵詐騙車手提領!財政部擬推「ATM領錢要露臉」 金管會回應了

CTWANT
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...