理財

HotChips 2024》聚焦於 AI 的乙太網路互連架構與來自 AMD 的遺珠之憾

科技新報
更新於 7小時前 • 發布於 7小時前

起源於 1973 年的乙太網路(Ethernet)是今日區域網路(LAN)的主流技術,受益於標準化與隨之而來的低成本,隨著 AI 應用與不斷擴大的 AI 模型規模,從最初的幾百 MB 到如今動輒數十 TB 的模型訓練資料集,傳統的 Gigabit 乙太網路(GbE)已經無法符合大規模 AI 訓練和即時推理對頻寬的需要。

更高速的乙太網路技術,如 10GbE、25GbE、40GbE、50GbE、100GbE、200GbE、400GbE、800GbE 與即將上路的 1.6TbE,逐漸成為 AI 資料中心的標準配備,更高效地分發資料,減少資料瓶頸,進而加快 AI 模型訓練的速度。

廣告(請繼續閱讀本文)

▲ 博通(Broadcom)身為網路晶片的巨頭,其乙太網路產品時程表也是毫無疑問的業界標竿,但現在更同時扮演著全新的角色:雲端巨頭自研晶片的好夥伴,與「反 Nvidia 聯盟」背後的影武者。

以大型 AI 資料中心為例通常使用分散式計算架構,其中 AI 模型訓練會在數百甚至數千台伺服器上同時進行。為確保這些伺服器之間緊密的協同工作,乙太網路必須成為成為可靠且快速的資料交換通道,使得不同運算節點之間即時交換並共享資料,以大幅提升整體運算效能。

廣告(請繼續閱讀本文)

換言之,乙太網路快速、無縫地處理如此大量的資料傳輸,對於 AI 系統的高效運作至關重要。以英特爾耗費 20 億美元買下 Habana Labs 而取得的 Gaudi 系列 AI 加速器為例,其最關鍵就是內建多埠乙太網路界面,以實現更簡易、成本更少、延遲更低的多處理器擴展性。

▲ 高度整合乙太網路與大型系統建置成本,是 Habana Labs 的 Gaudi 系列最突出之處,也是英特爾覺得「符合既定產品發展策略」而值得掏出 20 億美元買下的主因。

除增加頻寬,如何縮短延遲,提供更有效率的遠端記憶體存取(RDMA),繞過遠端主機作業的系統核心存取其記憶體中的資料,也就成為乙太網路技術改革的重點與諸多廠商的兵家必爭之地,並企圖追趕以 Nvidia(Mellanox)為首的 InfiniBand 方案。

從 RoCE(RDMA over Converged Ethernet)v2 的問世,一路到超級乙太網路聯盟(Ultra Ethernet Consortium,UEC)的成立,就是因應這個時代背景的必然產物,而做為處理器業界年度盛會的 Hot Chips,也就理所當然的變成它們的舞台,如大幅降低 GPU 集群算力閒置率的 Enfabrica,以及電動車龍頭特斯拉(Tesla)Dojo 超級電腦的 TTPoE 傳輸層協定。

▲ 在 AI 的時代,網路連結的重要性與時俱進,人工智慧需要的不只是「算力」,尋求最適合的網路架構也是一大重點。

AMD 在 2024 年 10 月舊金山的 AMD Advancing AI 活動上演火力大放送,一口氣發布 Zen 5 世代的 EPYC 9005 系列處理器與 Instinct系列的最新型運算 GPU MI325X,還一併附贈了第三代 DPU(更強大的 SmartNIC)Pensando Salina 400 和業界首款支援 UEC 規範的網路卡Pensando Pollara 400。

這是繼 AMD 在 2022 年 4月以 19 億美元併購 Pensando,最重大的成果發表會,讓 AMD 在提出「完整解決方案」之路上邁出了一大步。關於流著滿滿思科血統的 Pensando,其精彩的過往歷史,筆者改期再另外撰文介紹。

說到 AMD 的乙太網路卡,最早可回溯至 1985 年的 LANCE Am7990,這在那個古老的時代,可是普遍被不少高階工作站品牌(DEC、SGI、Sun)選用的響噹噹高檔貨色,Pensando Pollara 400 可謂事隔近 30 年後,AMD 再度重返網路卡市場的象徵,搭配 DPU,與 CPU、GPU 三位一體(或著還得加上 Xilinx 的 FPGA),成為 AMD 爭奪 AI 資料中心市場大餅的不可或缺拼圖。

回顧蘇姿丰(Lisa Su)在 AMD 主政十年的歷程,她確實有一整套長期的戰略布局,領導 AMD 踏實的一步一腳印,建立起前所未見的完整資料中心產品線。

我們稍微看一下 AMD 這次端出的菜色。為超大規模(Hyperscale)資料中心的軟體定義網路(SDN)而生的 AMD Pensando Salina 400 DPU,內建其第三代 P4 封包處理引擎,具有雙埠 400GbE、PCIe Gen5 界面、232 個 P4 MPU(Match Processing Unit)單元、最多 128GB DDR5 記憶體與 16 個 Arm Neoverse N1 核心,扮演類似「假想敵」AWS Nitro 的角色,替 CPU 分憂解勞,包括加密、負載平衡、防火牆、儲存卸載和網路位址轉換等。

▲ Pensando DPU 的頭號假想敵只有一個:AWS 自研的 Nitro 家族。我們也可以合理的推測,AMD 的鎖定銷售客群也就是 AWS 的競爭對手們。

同樣在網路方面,AMD Pensando Pollara 400 被宣布為首款 UEC 的「AI NIC(Network Interface Controller)」,具備可程式化的硬體執行管線處理 RDMA 傳輸與壅塞控制,與隱而不現的重點:開源驅動程式,但這些都遠不及 UEC 來得舉足輕重。

UEC 試圖克服傳統 RoCE 及 InfiniBand 傳輸標準的限制,致力提供更簡單、更有效的直接記憶體存取,以及 AI/HPC 工作負載的互連方式。類似前述的特斯拉 TPPoE,UEC 的重頭戲在於「為下一世代 AI 和 HPC 量身訂做」的 UET(Ultra Ethernet Transport)傳輸層通訊協定,目標為取代過往的 RDMA over Converged Ethernet(RoCE),並將出現於預定 2025 年第一季(原本表定 2024 年第三季,已跳票)發布的 UEC 1.0 規範。

AMD 已與思科密切合作,將 Pensando 的 DPU 整合至其乙太網路交換器,以提供更多樣化的 SDN 服務,減輕現有硬體架構的負擔。

值得注意的是,先前思科已將 AMD 的第二代 Pensando DPU Elba 整合至 12Tbps 的 8102 系列 400GbE 交換器,日後逐步演化成 UEC 相容產品,只是時間的問題,也將有機會變成 AMD「自家運算機櫃」的重要元件。但看在 Nvidia 產品時程表的份上,以 AMD 為首的 UEC 創始成員們,何年何月何時才能看到 Nvidia(Mellanox)的車尾燈,卻仍是難以抱持樂觀態度的大哉問。

AMD 宣稱 DPU 的種種優點,但這其實對幾乎所有的 SmartNIC 都一體適用,包括 Nvidia、英特爾和雲端巨頭自研的類似產品。

▲ 不夠好的網路將導致浪費大量的算力,前面的 Enfabrica 已經提醒大家了這個大道理了。

▲ 就 AMD(和非 Nvidia 陣營)的立場,無論整體擁有成本和延展性,乙太網路當然是優於 InfiniBand。

▲ 相較於一般只有 50% 利用率的通用網路,要實現 95% 的 AI 後端網路需要面對幾個挑戰:更聰明的負載平衡、壅塞管理、更快速的故障轉移和丟失封包回復。

▲ 超級乙太網路聯盟(UEC)原本預定在 2024 年第三季就要發布 1.0 規範,但確定延期至 2025 年第一季,這實在不是什麼好兆頭。

▲ UEC 的 RDMA 效能(延遲)勢必遠比現有 RoCE v2 來得優異的多,否則也就失去另起爐灶的意義了。

▲ AMD Pensando 的第三代 P4 封包處理引擎,對應 400GbE 網路環境,但各家的 800GbE 乙太網路相關產品卻已經陸續上路了。

▲ 搭載第三代 P4 封包處理引擎的 Salina 400 DPU,替 CPU 分憂解勞,包括防火牆、加密、負載平衡、網路位址轉換、儲存卸載等。

▲ Pollara 400 是業界第一張 UEC 網路卡,博通的 800GbE 方案(並且 Chiplet 化)也將在 2025 年登場。他們的共同敵人只有一個:Nvidia(Mellanox)。

檢視 AMD 如何拉近跟 Nvidia 的距離

先不姑且論因大規模裁員而尚處於混沌狀態,而且才剛在道瓊工業指數成分股被 Nvidia 取而代之的英特爾,既然說到 Pensando,就來順便談談 AMD 這幾年來的諸多補強舉動好了。在這裡筆者也必須提醒一件事:買下一間公司往往最有價值的部分不見得是產品和技術,得到「想到的客戶和業務網路」更經常是被人忽略的重中之重。

Nvidia 的強大之處絕遠不只 GPU 和 CUDA 生態系統,在 2020 年搶贏英特爾、以 70 億美元買下 Mellanox 堪稱影響深遠的一大步,而高度垂直整合的 DGX 伺服器、NVL 運算機櫃與「Nvidia 的 OCP」MGX 模組化平台,雖看似「與民爭利」,但也充分凸顯出 Nvidia 有充足的實力提出可讓客戶快速部署的整體解決方案,這也是 AMD「有為者亦若是」的下一階段目標,所有的重大併購案都以此為核心,包括 Xilinx、Pensando、Silo AI 與 ZT Systems,絕非為了風馬流不相干的「搶救消費性顯示卡的市占率和定價權」。

將 Nvidia 推上全球第一市值公司的本錢,並不只是「GPU + CUDA」而已。只要對業界生態有點基本的了解,就不難理解 Nvidia 的產品時程表有多麼的駭人。

在 2024 年 Nvidia 的市值曾二度超過蘋果公司成為全球市值最高的公司,讓 x86 雙雄更毫無看到車尾燈的機會,此時此刻,坊間亦不乏藉機替 Nvidia 錦上添花、順便數落 x86 雙雄種種不是的高論,特別是那種搬出一堆「早已過期多年的既成事實」。

像 AMD 缺乏統一的 GPU 微架構和足以匹敵 CUDA 的軟體生態系統之類的,去徹底否定尚在處於現在進行式的長期布局,而單純以消費性產品的狹隘思維,去檢視做為最主要戰場的 AI 資料中心,更頗有以管窺天之感,畢竟保護著 Nvidia 霸權的護城河,並不只有 GPU 和 CUDA 而已,眼前的世界早已是產品線組合「打群架」的時代,早就沒有靠著一招半式走天下的好日子。

從 AMD 宣布在台灣設置研發中心、業界盛傳四處從系統大廠大肆挖角、直到併購 ZT Systems,說穿了就是想做到和 Nvidia 一樣的系統垂直整合,將 AMD 在資料中心產品線的所有一切,從 CPU、GPU、FPGA、DPU、網路卡和合作夥伴的網路交換器等等,通通塞到裡面。再來就是觀望 AMD 的 GPU 微架構「統一大業」、ROCm 的演化和喊很久的 Unified AI Stack 何時可以正式浮上檯面了,但若無雲端巨頭的刻意扶植,AMD 要趕上 Nvidia,仍看似是不可能的任務。

消費性顯示卡市場對早已宣示「資料中心優先」的 AMD 來說,還剩下多少重要性,正所謂觀其言不如觀其行,AMD 對此展現的積極度就是最明確的答案,其他的講再多都是多餘,畢竟如同銷售伺服器的 EPYC 絕對遠比個人電腦的 Ryzen 好賺,賣出一張 Instinct MI 不知抵過多少張 Radeon RX,當 AMD 還有那個意願「反攻旗艦級消費顯卡」時,恐怕也是 GPU 微架構統一 CDNA(Vega)/ RDNA(Navi)雙軌路線的那一天了。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章