請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

AI 時代互連技術戰爭,Slingshot 與 InfiniBand 超大資料中心比較

科技新報

更新於 02月19日01:25 • 發布於 02月18日08:00

在高效能運算(HPC)與人工智慧(AI)的巔峰對決中,人們的目光往往聚焦於強大的 GPU 算力數據。然而,一場更為關鍵、長達二十年的「基礎設施戰爭」正在伺服器機櫃背後悄然發生轉折。根據最新的數據與產業分析,曾經被視為通用標準的乙太網路(Ethernet),正透過 Hewlett Packard Enterprise (HPE) 的 Slingshot 技術,成功逆襲並擊敗了長期由 Nvidia InfiniBand 主導的專有互連市場,成為 AI 超級運算的新霸主。

AI 時代互連技術是關鍵角色

每年兩次發布的 Top500 排行榜,是全球最強大超級電腦的競技場。這些名單展示了人類工程學的極限,但外界往往只關注處理器與 GPU 的型號。然而,真正的效能推手是經常被忽視的組件-互連技術(Interconnectivity)。

互連技術是將分散的 GPU 整合為一個超級大腦的神經網路。它負責以驚人的速度將工作負載從一個晶片轉移到另一個晶片,同時確保數據在傳輸過程中保持完整無損。若沒有強大的互連技術,再多的 GPU 也只是一堆孤立的硬體。在這個領域,兩大陣營的對抗已經持續了超過二十年。一方是通用的乙太網路(Ethernet),另一方則是專有的 InfiniBand。這場爭奪戰如同 F1 賽車手爭奪頒獎台席位一般激烈,雙方在不同時期都曾佔據主導地位。

乙太網路 vs. InfiniBand:開放與專有的對決

乙太網路是現代網際網路協議(IP)的基石,是業界最熟悉、定義最明確的標準。從區域網路(LAN)到廣域網路(WAN),乙太網路無處不在。在超級運算中,它同樣負責讓叢集內(Scale-up)或叢集間(Scale-out)的 GPU 進行數據傳輸。其最大的優勢在於「開放性」。乙太網路允許工程師輕鬆連接來自 AMD、Intel 甚至 Nvidia 等不同供應商的數百個 GPU 和硬體。由於其廣泛的可用性,絕大多數工程師都對其操作瞭若指掌。

相對地,InfiniBand 雖然技術上是開放標準,但在實務上已成為高度專有的產品,其生態系統幾乎完全由輝達 (Nvidia) 控制。Nvidia 在 2020 年收購了 InfiniBand 的領導者 Mellanox,進一步鞏固了其統治地位。InfiniBand 的優勢在於其與 Nvidia CUDA 軟體堆疊的深度整合,以及歷史上在超低延遲場景中的卓越表現。

這主要歸功於其原生支援遠端直接記憶體存取(RDMA)技術,該技術允許網路適配器直接在不同系統的記憶體之間傳輸數據,繞過 CPU,從而消除了處理開銷並降低延遲。憑藉這些優勢以及業界對 Nvidia 硬體的渴求,InfiniBand 直到 2023 年底仍佔據約 80% 的 AI 網路市場占比。

然而,當前局勢已經悄然改變。HPE 旗下的 Slingshot 互連技術,證明了乙太網路不僅能生存,更能稱王。根據 2025 年 6 月發布的最新 Top500 榜單,全球前 10 大最強大的超級電腦中,有 6 台使用了 HPE 的 Slingshot 技術。這份名單包括了佔據前三名的頂級系統,包括El Capitan、Frontier 和 Aurora。而且,這種統治力延伸至前 30 名,共有 12 個系統採用 Slingshot。

雖然從數量上看,InfiniBand NDR200 仍以 189 台系統佔據榜單最大占比,但在效能占比(Performance Share)這一關鍵指標上,HPE 最新的 Slingshot 11 已佔據 48.1% 的絕對優勢。相較之下,InfiniBand NDR200 僅佔 28.8%,其中包括英國最新的超級電腦 Isambard-AI ,也成為這一趨勢的見證者。該系統於 2025 年夏季啟用,隨即在 Top500 中空降第 11 名。它採用的正是 Slingshot 技術,透過 64 個端口提供高達 25.6 Tbps 的雙向頻寬。

乙太網路 Plus成為成功秘訣

HPE 高效能網路副總裁兼總經理 Mike Vildibill 曾公開揭示了 Slingshot 成功的關鍵策略,那就是「在內部像專有互連一樣運作,在邊緣則像乙太網路。」而回顧這項技術的基因,就是源自於 HPE 於 2019 年收購的超級運算先驅 Cray Research。

Vildibill 解釋道,當時Cray 的工程師們當年設想了一種大膽的架構,就是在網路邊緣保持與乙太網路的相容性與合規性,但在織物網路(Fabric)內部,則執行高度專業化的工作,這就是他們的大絕招。而且,他們也成功達成了這一點,最後將這種「乙太網路 Plus(Ethernet plus)」或「帶有轉折的乙太網路」推向了市場。這一策略度僅解決了傳統乙太網路在高效能運算中的痛點,同時保留了開放生態系統的優勢,讓運算商不必被單一供應商鎖定。

推動UEC 與 OCP產業標準化

隨著乙太網路在頂級效能戰場的勝利,產業正在迅速向開放標準靠攏。Dell'Oro Group 的研究預測,乙太網路將在未來幾年主導資料中心規模的織物網路市場,並在未來五年內推動近 800 億美元的交換機銷售金額。尤其,為了加速這一進程,兩大組織正在發揮關鍵作用:

開放運算計畫(OCP):成立了新的網路工作小組 ESUN,研究用於 AI 擴展的乙太網路。HPE 與 AMD、Meta 和 Microsoft 等大廠聯手,致力於構建開放、基於標準的乙太網路交換技術。

超乙太網路聯盟(Ultra Ethernet Consortium, UEC):這或許是影響最深遠的變革。UEC 致力於將乙太網路提升到新層次,其 1.0 規範將 InfiniBand 令人稱羨的 RDMA 支援導入乙太網路,在保持互操作性的同時提供低延遲傳輸。而作為 UEC 的創始成員,HPE 全力支持這項計畫。Vildibill 透露,UEC 的傳輸規範中,有高達 70% 的內容來自於 Slingshot 的智慧財產權。

Vildibill 表示,UEC 正在定義一個開放的產業標準,這本質上就是『乙太網路 Plus』。產業希望複製我們在 Slingshot 上所做的事情。但我們不是在與 UEC 競爭,我們是在擁抱它,因為這有助於實現我們將乙太網路推向所有領域的目標。

在極大規模中千錘百鍊成Slingshot異軍突起基礎

除了技術規格外,Slingshot 之所以能勝出,還在於其獨特的研發路徑。與大多數從小型網路開始並逐步擴展的網路產品不同,Slingshot 是「反其道而行」,從一開始就是為了世界上前所未見的最大型系統而設計的。Vildibill 指出,HPE 在收購 Cray 後交付的首批系統就是全球最大的超級電腦。這意味著他們面臨的是前人從未遇過的問題。

這種極端規模的測試,迫使團隊消除了在小規模下可忽略、但在大規模下會導致系統崩潰的邊緣情況(Edge cases)和錯誤。這種極致的查核造就了世界級的可靠性。Vildibill 總結指出,憑藉可靠性與彈性,其錯誤率都低得驚人,因為如果我們在如此巨大的規模下都能消除這些問題,那麼在小規模應用中,這些問題幾乎永遠不會發生。

因此,隨著當前 AI 運算需求的激增,營運商正急於尋找 InfiniBand 以外的開放替代方案。HPE Slingshot 的成功證明了乙太網路不僅能勝任 AI 超級運算的苛刻要求,甚至能在效能上超越專有技術。透過結合開放標準的靈活性與專有技術的高效能,再加上 UEC 等聯盟的推動,乙太網路正在重新定義 AI 基礎設施的未來,贏得了這場關鍵的超級運算戰役。

(首圖來源:pixabay)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

豪宅買氣慘2/北市30坪即為豪宅?沒千萬現金別想換房 大坪數成「票房毒藥」

CTWANT
02

漂流木變小提琴2/晚上7點後只剩便利店最亮!竹科工程師返鄉想振興小鎮 下場是天天茫到不敢再出門

鏡週刊
03

不只台積電!外媒點名2檔個股:買了10年後會感謝自己

民視新聞網
04

豪宅買氣慘1/「哥吉拉」甦醒半價搶市咬冠軍 億元豪宅交易卻大減4成

CTWANT
05

短線逆風 臺銀:金價長多未扭轉

經濟日報
06

台股西進首度倒退嚕》中國學徒複製台灣經驗 台塑寧波、台聚古雷淪錢坑

自由電子報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...