請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

OpenAI 攜手業界夥伴提出 MRC 協定,解決 AI 運算網路瓶頸

科技新報

更新於 05月11日18:48 • 發布於 05月11日18:49

OpenAI 與來自 AMD、博通、英特爾、微軟、NVIDIA 的研究人員近日聯手發表一篇新論文,揭露 OpenAI 訓練技術堆疊的內部運作,並推出一項全新的運算網路通訊協定,在關鍵基礎設施層級採行共享標準,有助於更具效率、更可靠地擴展 AI 系統規模,拓展至廣泛的合作夥伴生態系。

新論文介紹一項名為 MRC(Multipath Reliable Connection)的通訊協定,本質上是解決 AI 基礎設施運算網路所面臨得兩大難題:壅塞與故障。隨著 GPU 叢集規模擴大,這兩個問題會越來越難解決。

MRC 仰賴所謂 packet spraying,本質上是將流量分散至網路中的數百條路徑,防止任何單一網路連結出現壅塞。同時降低 GPU 叢集中的「層級」數量,形成更為扁平的網路結構,進而降低資料中心的運算和電力消耗。

處理故障方面,MRC 能在路徑中斷時,在微秒級時間內偵測並重新引導路徑。這讓 GPU 叢集即便在網路部分區段發生故障,也能繼續訓練。

此外,MRC 還與一項名為 SRv6(IPv6 Segment Routing)的通訊協定搭配使用,後者是直接告訴數據應在網路中經過確切路徑,而非強迫網路交換器自行作業,進一步降低這些交換器以及整體資料中心的能源需求。

MRC 已在 OpenAI 和微軟最大規模的訓練叢集投入使用,包括微軟的 Fairwater 資料中心、OCI(Oracle Cloud Infrastructure)的 Abilene 資料中心,也被用於訓練多款 OpenAI 模型。

這項研發 2 年的通訊協定,對 OpenAI 擴展所需運算資源以持續打造規模更大、表現更出色的模型相當重要,這樣的設計方法加速 OpenAI 對於 Stargate 計畫的願景。

傳統大規模 AI 訓練任務對 GPU 叢集而言可說是一個故障放大器,只要一個環節出錯,連鎖效應便會迫使整個流程戛然而止,讓 GPU 處於閒置狀態。此外,網路壅塞也會拖慢研究團隊的創新速度。而 MRC 繞過這些問題,讓 OpenAI 能以更快的速度推動整個研究流程,更充分運用手上所擁有的資源。

MRC 規格目前透過 OCP(Open Compute Project,開放運算計畫)以開放授權的形式釋出。OpenAI 強調此一決定的重要性,並表示這項通訊協定並非 OpenAI 想藉此形成差異化,而是希望帶領整個產業跨越傳統瓶頸。

(首圖為 Oracle Cloud Infrastructure 的 Abilene 資料中心內部運算設施,來源:OpenAI

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

台積電一天賣光!世界先進爆鉅額交易

NOWNEWS今日新聞
02

LED大廠破產清算 8千坪廠房「13億流標」

EBC 東森新聞
03

小吃店誤開多張同號發票!發文求救追不回 中特獎「最少將賠1千萬元」

三立新聞網
04

黃仁勳嗨捧中國突變臉!下秒噴出「台語大實話」網笑:開啟台灣人模式

民視新聞網
05

台股突下墜「回檔海嘯第一排」曝光!謝金河示警1現象:股價超漲到2029

民視新聞網
06

「小雨傘包包」退出台灣市場!結束20年代理全面撤櫃 粉絲不捨:年輕時超愛買

鏡週刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...