OpenAI 攜手業界夥伴提出 MRC 協定，解決 AI 運算網路瓶頸

OpenAI 與來自 AMD、博通、英特爾、微軟、NVIDIA 的研究人員近日聯手發表一篇新論文，揭露 OpenAI 訓練技術堆疊的內部運作，並推出一項全新的運算網路通訊協定，在關鍵基礎設施層級採行共享標準，有助於更具效率、更可靠地擴展 AI 系統規模，拓展至廣泛的合作夥伴生態系。

新論文介紹一項名為 MRC（Multipath Reliable Connection）的通訊協定，本質上是解決 AI 基礎設施運算網路所面臨得兩大難題：壅塞與故障。隨著 GPU 叢集規模擴大，這兩個問題會越來越難解決。

MRC 仰賴所謂 packet spraying，本質上是將流量分散至網路中的數百條路徑，防止任何單一網路連結出現壅塞。同時降低 GPU 叢集中的「層級」數量，形成更為扁平的網路結構，進而降低資料中心的運算和電力消耗。

處理故障方面，MRC 能在路徑中斷時，在微秒級時間內偵測並重新引導路徑。這讓 GPU 叢集即便在網路部分區段發生故障，也能繼續訓練。

此外，MRC 還與一項名為 SRv6（IPv6 Segment Routing）的通訊協定搭配使用，後者是直接告訴數據應在網路中經過確切路徑，而非強迫網路交換器自行作業，進一步降低這些交換器以及整體資料中心的能源需求。

MRC 已在 OpenAI 和微軟最大規模的訓練叢集投入使用，包括微軟的 Fairwater 資料中心、OCI（Oracle Cloud Infrastructure）的 Abilene 資料中心，也被用於訓練多款 OpenAI 模型。

這項研發 2 年的通訊協定，對 OpenAI 擴展所需運算資源以持續打造規模更大、表現更出色的模型相當重要，這樣的設計方法加速 OpenAI 對於 Stargate 計畫的願景。

傳統大規模 AI 訓練任務對 GPU 叢集而言可說是一個故障放大器，只要一個環節出錯，連鎖效應便會迫使整個流程戛然而止，讓 GPU 處於閒置狀態。此外，網路壅塞也會拖慢研究團隊的創新速度。而 MRC 繞過這些問題，讓 OpenAI 能以更快的速度推動整個研究流程，更充分運用手上所擁有的資源。

MRC 規格目前透過 OCP（Open Compute Project，開放運算計畫）以開放授權的形式釋出。OpenAI 強調此一決定的重要性，並表示這項通訊協定並非 OpenAI 想藉此形成差異化，而是希望帶領整個產業跨越傳統瓶頸。

（首圖為 Oracle Cloud Infrastructure 的 Abilene 資料中心內部運算設施，來源：OpenAI）

理財