請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Hot Chips 2024》萬眾注目的旗艦 AI GPU:遙遙領先的 Nvidia Blackwell、苦苦追趕的 AMD MI300X 和看不見影子的英特爾 Gaudi 3

科技新報

更新於 2024年10月14日15:26 • 發布於 2024年10月15日07:50

今日 GPU 應用非常廣泛多元,早遠遠超過「繪圖」範疇,如高效能浮點運算、加密貨幣挖礦、智慧手機和自駕車人工智慧推理等,資料中心更塞滿滿連輸出畫面都不行的「運算限定」晶片,也許將 GPU 重新命名為「平行處理應用加速器單元」(PPAAU,Parallel-Processing Application Accelerator Unit)會更貼切。

人工智慧的世界,GPU(Graphic Processing Unit)簡寫更幾乎重新定義為「General Purpose Uuit」,過去與 CPU 較量、通用 GPU 運算(GPGPU)經常被詬病的「泛用性」,相較特定應用場域特化的「AI 加速器」,反倒是明顯強項。因此才會看到市值超過 3 兆美元的 Nvidia、近 3 千億美元的 AMD,以及連 1 千億美元都沒有的英特爾。

本屆 Hot Chips「資料中心御三家」都再次談到最新旗艦產品,與過去提及大同小異,但簡報均精煉不少,有更高可讀性,有助各位「溫故知新」。而「看圖說故事」之前,筆者依舊會不厭其煩簡介公司概況,有助讀者從琳瑯滿目的技術名詞提煉出充實人生的養分。

持續擴大絕對領先優勢的 Nvidia

1. 身為世界上最獨領風騷的「AI 算力軍火商」,如稱黃仁勳是「AI 教父」,還不如改叫「AI 算力軍火教父」,個人財富也超越「整家英特爾」市值,亦不乏惟恐天下不亂的網路鄉民,敲碗呼籲黃仁勳乾脆自己掏錢買下搖搖欲墜的英特爾。

2. 除了牢不可破的 CUDA 軟體生態體系,從晶片、子系統、單機伺服器、網路連結、運算機櫃到整台「Turnkey」超級電腦,均密不可分的高度垂直整合,換言之,扣除台灣稱霸世界的晶圓代工,那票替 Nvdia 抬轎子、高階主管搶著跟黃仁勳合照的眾多系統廠,某種程度只是打工組裝角色,這是台灣人自傲於「AI 之島」時,必須認清的現實,雖然只會做硬體也不見得是壞事。

3. 現在滿手是錢的 Nvidia,差不多可謂「想做什麼就做什麼」,並著手尖端研究,以便下代產品於集群(Cluster)層級滿足未來模型的需求,最近就釋出「限定研究用途,不許商業使用」的 NVLM 1.0 開源多模態大型語言模型,最大版本 NVLM-D-72B 達 720 億(72B)參數,開發團隊宣稱其視覺語言精確度,媲美業界領先 GPT-4o 私有模型,以及 Llama 3-V 40.5B、InternVL 2 等開源模型,舉例甚至包括理解迷因圖,NVLM-1.0 72B 多模態測試表現也優於 Google 的 Gemini 1.5 Pro。

4. 但多數人可能更好奇的是,Nvidia 將如何把手伸進 WoA(Windows On Arm)的微軟 Copilot+ PC,且後面會有哪些讓人意想不到的布局,又突然有驚天動地的併購,或更在意「預定明年 1 月 CES 登場的 RTX 5090 會賣多少錢,又會吃多少電」。

▲ 人工智慧領域,Nvidia 建立不只單一 GPU,而是整個緊密軟硬體垂直整合的生態系統,光憑硬體解決方案的完整度,業界沒有其他廠商看得到車尾燈。

▲ 2006 年問世的 CUDA 是 Nvidia「霸業」基礎,各式各樣應用如火紅人工智慧,全都奠基於此,生態圈有數以百萬計的開發人員。

▲ Nvidia 新 Blackwell 平台涵蓋 CPU 到 GPU 互連的各類型網路,如 NVLink、InfiniBand 和 Ethernet,不只有 GPU。

▲ Blackwell GPU 六個主要特色:2,080 億電晶體、支援 FP4 / FP6 張量浮點格式的 Transformer 引擎、更安全的運算環境隔離性、可延展至 576 個 GPU 的第五代 NVLink、執行 100% 系統內自我測試的 RAS(可靠性、可用性和可維護性)引擎、800GB/s 解壓縮引擎。

▲ Blackwell 是非常巨大的 GPU,因應人工智慧推論需求,刻意擴充低精度資料支援度,「Going Bigger With Smaller Data」堪稱最貼切的寫照。

▲ Nvidia 長期主導 GPU 市場,也手握「最高階 AI 運算 GPU」,由兩顆晶粒組成的 Blackwell 更是前所未見的巨大。

▲ Nvidia NV-HBI 介面在兩個 GPU 間提供高達 10TB/s 雙向理論頻寬。

▲ Nvidia GB200 Superchip 由一顆 72 核 Arm Neoverse V2 的 Grace CPU 和兩顆 Blackwell GPU 組成。一個計算托盤有兩個 GB200 Superchip,總計兩顆 Grace GPU 和四顆 Blackwell GPU。

▲ 降低計算精度是提高運算效能、降低儲存空間的常見手段,Nvidia Blackwell 有新 FP4 和 FP6,效能是前代 Hopper 的 FP8 兩倍或四倍。

▲ Nvidia Quasar Quantization 系統找出適用較低精度的內容,減少計算和儲存。

▲ Nvidia 表示,某些推理 FP4 可接近 FP16 效能與精度。

▲ Blackwell GPU 分別使用 FP16 和 FP4 模型產生兔子圖,看起來幾乎一模一樣。

▲ AI 模型規模不斷成長,十年內長了「七萬倍」。

▲ Nvidia 無需等待 PCI-SIG 的「PCIe 業界標準」,即可自行 NVLink 導入更先進編碼調變,頻寬繼續輾壓所有對手。

▲ NVLink Switch(NVSwitch)晶片與交換器托盤是讓數以百計 GPU 垂直擴充(Scale-Up)成「超大 GPU」的基礎。

▲ 單 NVLink 網域,GPU 數從 2016 年八個一路進步至 72 個,Hot Chips 30(2018 年)16 個 Volta GPU(V100)的 DGX-2 資訊都省略了。

▲ Nvidia 在 GB200 世代 NVL72 與 NVL36 運算機架,數字代表 GPU 數量,NVL36 是 36 個 Blackwell GPU 版,適用無法部署 120kW 功耗機架的資料中心。

▲ 因併購 Mellanox,不限 InfiniBand,Nvidia 也有完整乙太網路方案,其實 Nvidia 已在做 UltraEthernet 聯盟打算做的事,天知道這聯盟會不會最後一無所獲。

▲ GB200 NVL72 專為「兆」等級推論模型參數打造。

▲ 模型越來越大,勢必分配工作給多個 GPU,甚至將單一網路層參數張量分散至 GPU(TP,Tensor Parallelism,張量平行度),減少 GPU 交換資料時浪費的運算能力。

▲ 因 Blackwell 夠大,單 GPU 足以處理專家模型,藉模型層級專家平行度(EP,Expert Parallelism)將 MoE(Mixture of Experts)專家分布至各 GPU,每個「專家」都負責不同任務。

▲ 結合張量平行度(TP)、專家平行度(EP)和管線平行度(PP,Pipeline Parallelism,將一個任務切成不同階段,GPU 完成後部分交由下個 GPU 接手),Blackwell 執行 GPT-MoE 1.8T 的效能,可達前代 Hopper 的 30 倍。

▲ 與英特爾鐘擺(Tick-Tock)節奏相似,Nvidia 約兩年推出新 GPU 架構,中間夾一個改良版,時程表可清楚看見:下代 Rubin GPU(八顆 HBM4)、Vera GPU、第六代 NVLink、1.6Tb/s 網路卡與 InfiniBand/乙太網路交換器、Rubin Ultra GPU(12 顆 HBM4),並暗示有三款「其他晶片」。筆者大概可「猜」到是什麼,但先假裝不知道好了。

▲ 總結,就是 Nvidia 整體解決方案很完整好棒棒,並感謝數以千計讓 Blackwell 成為現實的 Nvidia 員工。

業務聚焦資料中心的 AMD

1. AMD 2024 年第二季財報,營收達 58 億美元,獲利超過華爾街預期,以 MI300 系列為主的 AI 晶片銷售持續成長,資料中心業務年增高達 115%,達 28 億美元,占近 50% 收入。上任剛滿十年的 AMD 執行長蘇姿丰(Lisa Su)更在 9 月高盛 Communacopia 論壇宣示:AMD 現在是「資料中心優先」公司了。

2. 準備致力垂直整合的 AMD,先是 7 月以 6.65 億美元併購芬蘭 AI 模型公司 Silo AI,後來 8 月又以 49 億美元收購美國 AI 基礎設施供應商 ZT Systems(微軟 Azure MI300X 系統的生產商),目的是提高系統設計能力,以便推出能跟 Nvidia 競爭的「整體解決方案」。

3. 如 AMD 先前公布時程表,年底推出 288GB HBM3E 記憶體的 MI325X,2025 年 CDNA4 架構 MI350 系列(首發 MI355X),2026 年更新架構 MI400 系列。

4. 國慶日同場加映:AMD 美國時間 10 月 10 日發表 MI325X,也披露 CDNA4、台積電 3 奈米製程 MI355X,後者亦步亦趨跟隨 Nvidia Blackwell 追加 FP4 / FP6 格式,表定 2025 下半年供貨。

5. 論 GPU 架構,AMD 目前有 RDNA 與 CDNA 各自對應遊戲和資料中心,兩者未來統一為 UDNA 以兼顧兩者,節約研發資源,並一勞永逸確保開發環境一致性與向下相容性,如 Nvidia CUDA 吸引數以百萬計開發者。但 AMD 並未透露何時完成「統一大業」,可預期還會看到 AMD 維持雙軌路線好一陣子,兩三年跑不掉。

▲ 筆者不得不說,AMD 近年簡報風格非常非常漂亮,且更難能可貴的是,AMD 已不是十年前的「簡報王」。順道一題,10 月剛好是蘇姿丰上任 AMD 執行長滿十年,只能說時間過得真快,現在市值是英特爾三倍的 AMD 早非昔日被英特爾和 Nvidia 輪流圍毆的吳下阿蒙,而是追趕「AI 算力軍火商」Nvidia 的競爭者。

▲ MI300 分成「超級 APU」MI300A 和「超級 GPU」MI300X,前者用於 HPE EI Capitan 等超級電腦,後者則熱銷至各大雲端服務供應商(CSP),貢獻今年「45 億 AI 晶片營收」大部分。

▲ MI300 可謂 EHP(Exascale Heterogenous Processor)多年耕耘的成果,由多片 Chiplet 組成,含 304 個計算單元(CU,Compute Unit)和 192GB HBM3 記憶體。

▲ MI300X CDNA3 較 MI250X CDNA2 效能提升幅度,支援資料精度多了 TF32 和 FP8 格式是最明顯的差異。

▲ 192GB HBM3 記憶體有更大容量與更高頻寬,不過和自家前代 MI250X 相比也就算了,到現在還是只能挑兩年多前 Nvidia H100 當對手,實在勝之不武。

▲ 計算用 XCD(關閉兩個 CU 以提升良率)、巨大 Infinity Cache、Infinity Fabric 與 HBM3 記憶體晶片的連接架構圖。

▲ MI300X 整體記憶體階層架構,不僅 SIMD 單元各自專用資料暫存器、CU 單元的 L1 快取和區域共享記憶體(LDS,Local Data Share),由內至外,可看到八個 4MB 的 L2 快取、256MB Infinity Cache 和 192GB HBM3。

▲ 如同 EPYC,MI300X 可定義 NPS(NUMA Nodes per Socket),定義運算核心群存取記憶體通道的方式,包括「湊在一起的 NPS1」(頻寬最高、延遲最長)和「切成四塊的 NPS4」(頻寬最低、延遲最短)。另外基於 PCIe 的 SR-IOV,MI300X 可切分成不同分割區,以對付虛擬化環境。筆者補充,2016 年初 AMD FirePro S7150 是世界首款支援 SR-IOV 的 GPU,處理器內顯則是起自英特爾第 12 代 Core Alder Lake。

▲ AMD 最主要 MI300X 平台建構於八路 OCP 加速模組(OAM,OCP Accelerator Module)。

▲ 從只有 PCIe 運算卡的 MI100,一路發展到 OAM 的 MI200 和 MI300 家族。

▲ 這就是 AMD 能提出的「Nvidia HGX 替代方案」,即使落後很多年。

▲ MI300X 以七個 Infinity Fabric 連接其他 GPU,再經 PCIe x16 Gen5 連接伺服器主機。

▲ 公開標準、安全性、RAS(可靠性、可用性和可維護性)、可遙測性與韌體管理,對當下 AI 運算集群是必備需求。

▲ 已發表的 MI300X 伺服器,但不見戴爾(Dell)也不見緯穎(Wiwynn),後者今年 COMPUTEX 展示八路 MI300X 的 GS1800A(及八路英特爾 Gaudi 3 的 GS1800G)。

▲ AMD不厭其煩的介紹歷程超過七年的「開放軟體生態系統」ROCm(Radeon Open Compute platform),但支援硬體型號太少一直是致命傷,也不見 AMD 的 Unified AI Stack,大概是要等到年底才會有較清晰的輪廓吧。

▲ 執行兩種生程式 AI 大型語言模型推論的詞元產生輸出率,MI300X「理所當然」擊敗 Nvidia H100,但現在應當更多人積極部署 H200(141GB HBM3E),或等待更新 B200A(原 B100)和 B200。AMD 年底會推出記憶體升級至 288GB HBM3E 的 MI325X,用更充沛的記憶體容量(可塞入更大模型)抵銷運算效能與生態系統成熟度的劣勢。

▲ 微調後 MPT-30B 訓練,雙方扯平,筆者先不深究背後意義,但很肯定的是軟體層面遠大於硬體規格。

▲ MI300X 是 2023 年產品,AMD 也將一年推一款新品追上 Nvidia。儘管無人知曉 AMD 需多少時間才能追上,但憑著銷售數十億美元的產品線,AMD 鞏固了 AI GPU 領域僅次 Nvidia 的二把手地位。

▲ 國慶日同場加映:AMD 美國時間 10 月 10 日公開 MI300X 改良版 MI325X,記憶體升級至 256GB HBM3E,理論頻寬也略增至 6TB/s。

▲ 國慶日同場加映:MI325X 對手總算從 Nvidia H100「升級」到 H200。

▲ 國慶日同場加映:CDNA4 世代 MI350 的 XCD 採台積電 3 奈米製程,288GB HBM3E 記憶體理論頻寬提升至 8TB/s,資料格式新增 FP4 / FP6,追上 Nvidia Blackwell 腳步。

▲ 國慶日同場加映:雖然 MI355X 較 MI325X 效能飛躍進步,但理論效能基本上是連 Nvidia Blackwell(B200)一半都不到(20PF,FP4 或 10PF,FP6 / FP8),只能說革命尚未成功,AMD 仍須努力。

手握救命稻草試圖振衰起蔽的英特爾

1. 相對「手感正熱」的 Nvidia 與 AMD,Gaudi 3 怎麼看都不像傳統意義的「GPU」,還不如改名「平行處理應用加速器單元」(PPAAU,Parallel-Processing Application Accelerator Unit),光「AI 加速器」怎麼看都太籠統。

2. 營運陷入困境的英特爾,短期未因陸續端出有競爭力的產品(Xeon 6 家族、Gaudi 3、Lunar Lake)而好轉,反因「因應策略調整和終端需求變化」,大幅調降 AI 晶片 Gaudi 3 的 2025 年出貨目標,降幅高達三成,讓被砍單的台灣供應鏈淪為受災戶,也打亂原有意採購此晶片的伺服器廠商出貨節奏,只能硬著頭皮請 Nvidia 和 AMD「多給一點晶片」。

3. 8 月底英特爾與 IBM 共同宣布,合作 IBM Cloud 部署 Gaudi 3 服務,預定 2025 年初推出,IBM 也是首家引進 Gaudi 3 的雲端服務商,但仍難遏止英特爾的頹勢,畢竟 IBM Cloud 市占率遠不如三大公有雲(AWS、微軟、Google),僅約 2.5%。

4. 緊接著 Hot Chips 2024,一個月後就是英特爾宣布 Gaudi 3 全面上市(GA,General Availability)的產品發表會,以更精美的簡報,揭露更多技術細節,所以本次「加量不加價」整合兩場內容並刪除重複處,讓各位更充分感受「簡報豐富度與實際商業成績成反比」的強烈違和感。

▲ 自 2019 年,源自 Habana Labs 的 Gaudi 發展到第三代,共同點還是「內建乙太網路」。

▲ Gaudi 3 由兩顆晶片 2.5D 封裝 EMIB 組成,為何記憶體只能用 HBM2e,或許只能解釋為「HBM3 早被 Nvidia 和 AMD 掃光了」。

▲ 非常有趣的是,Gaudi 3 內建高達 14 個解碼器,涵蓋 HEVC(H.265)、H.264、JPEG、VP9 等影音格式,對加速視訊分析推理應用很重要。

▲ 每個晶片都有兩個深度學習核心(DCORE),各有一對矩陣乘法引擎和 16 個張量處理器核心,以及 24MB 快取記憶體。

▲ Gaudi 3 兩種運算單元:矩陣乘法引擎與張量處理器核心。

▲ 矩陣乘法引擎支援 BF16 跟 FP8 格式,與沒有列上去的 TF32。

▲ 張量處理器核心為應對「非矩陣乘法」(Non-Matmul)運算,兼具純量與向量,但比矩陣乘法引擎少了 TF32。

▲ L2 / L3 快取與 HBM 共用統一記憶體定址空間,可使用記憶體上下文 ID(MCID)這種「快取暗示」(Cache Hint)操作快取記憶體的行為,如無須被快取(No-$)、放在 L2(L2$)、放在 L3(L3$)、一起放在 L2 / L3(L2$+L3$)。L2 快取有專屬整數邏輯運算單元,可做「簡單的近記憶體運算」,減少張量處理器核心的工作量。

▲ Gaudi 3 有特殊執行環境驅動程式與分而治之的晶片內網路(NoC,Network-on-Chip),可動態調整控制訊息路徑和工作分配。

▲ Gaudi 3 軟體套件包,但看來尚未整合至 OneAPI,假若後繼 Falcon Shores GPU 也延續 Gaudi 部分架構,可能是一大疑慮,但現在討論這個也無濟於事。

▲ 圖像編譯器協調兩種運算單元工作分配,晶片內網路設計則確保兩邊可平行運行,並充分管線化工作排程,以改進計算利用率。

▲ Habana Labs 的「Gaudi 大法」:無論垂直(Scale-Up)還是水平擴展(Scale-Out),由內到外都 RDMA 乙太網路互連,充分符合英特爾重視乙太網路的策略。

▲ 執行生成式 AI 大型語言模型推論的效能比較,從成長比例看,Llama-3 還有待繼續最佳化。

▲ 從單卡、八晶片節點、機櫃到叢集,Gaudi 3 均奠基於乙太網路上,降低建置成本並縮短組裝時間。

▲ 從個人電腦到邊緣運算到資料中心,英特爾不得不「全面擁抱 AI」。

▲ 已出貨的兩種 Gaudi 3 伺服器型號。

▲ 現階段 Gaudi 3「理論上」可擴展至 1,024 個運算節點,總計 8,192 個「AI 加速器」。

▲ 以 32 節點(256 個 Gaudi 3)為例,加上儲存、控制和網路,需要 15 個機架,算是相對「中等密度」的配置。

▲ 結合預先訓練大型語言模型與外部資料來源的檢索增強生成(RAG,Retrieval Augmented Generation)讓大型語言模型(LLM)能不經再訓練,利用更多資料改善生成式 AI 品質,此簡報講述英特爾幫助客戶和合作夥伴,為企業提供「經過驗證後的 RAG 體驗」。

▲ 即便 OAM 的 HL-325L 與 HLB-325 較吸引目光,但 Gaudi 3 也有 PCIe 介面卡版本 HL-338。

▲ 看在 600W 功耗的份上,伺服器需要高功率電源供應器與足夠散熱風流。隱約可見卡上有安裝連接多卡背板的位置。

▲ HL-338 可輸出兩個 400GbE QSFP-DD 網路界面,四張 HL-338透過 HLTB-304 頂部背板,執行機箱內卡到卡傳輸,當然,通訊協定還是乙太網路。

▲ 面對 Nvidia 可想見所有環節的絕對領先優勢,英特爾現在只能先與兩年多年的 H100「競爭」效能和性價比,依「1.19 倍效能」和「兩倍性價比」,推算出 Gaudi 3 價格最多只能賣到 H100 六成,但可能還是比 AMD MI300X 貴。

▲ 就算英特爾列出再多軟體開發框架和各式各樣模型,依然改變不了看不見 Nvidia 和 AMD 背影的現況。Gaudi 3 對潛在客戶的唯一誘因恐怕只剩「買不到 Nvidia 和 AMD 產品」。

雲端巨頭能否自研 AI 晶片「球員兼裁判」?

市值比肩蘋果和微軟的 Nvidia「AI 算力霸權」看似難撼動,為打破壟斷局面,也促使所有上得了檯面的科技巨頭和晶片大廠,紛紛化敵為友,組織軟硬兼備的「反 Nvidia 聯盟」,只為跨越 Nvidia 兩條主要護城河:CUDA 與 NVLink。

近期結果就是抵制 CUDA 的「UXL」(Unified Acceleration Foundation)、對抗 NVLink 的「UALink」(Ultra Accelerator Link),加上以 InfiniBand(Mellanox)為頭號假想敵的超級乙太網路聯盟(Ultra Ethernet Consortium,UEC)。

但問題來了,三者何年何月何日能落實至夠水準的「開放產業標準」與「真正產品」?這段時間 Nvidia 獨門技術又會演化幾代?到處都是滿滿問號的大哉問。

除此之外,假如再根據呆伯特法則「天下任何事物都有邏輯極限」,再看看巨型雲端服務業者前仆後繼自研處理器,那「世界的盡頭」不外乎「假以時日,他們完完全全不需要 Nvidia GPU,ㄧ顆都不用」(如果能有這天,x86 雙雄多半凶多吉少),「自用」也就算了,但看到下圖,再想想現今多數跑在雲端的 GPU 實例叫什麼名字,相信對這條「不存在世界線」抱有熱切期待的人,都會心瞬間涼半截,極度有限的想像力開始發出淒厲的哀號。

▲ 網路流傳的資料中心 AI 晶片時程表,不但可清楚看到雲端巨頭自研晶片的合作夥伴,更可意識到 Nvidia 和台積電難以動搖的地位。

話說回來,不論 Nvidia 終究難逃各國政府反壟斷調查,會造成多大衝擊,站在個人電腦使用者的立場,Nvidia 並沒有因「資料中心超好賺」而停止發展旗艦級消費性顯示卡(反觀 AMD 和尚未做出旗艦卡的英特爾),並對個人電腦市場抱持相對積極態度,不啻功德一件,否則屆時再有錢,也買不到跑得動頂規遊戲的電腦硬體。既然如此,就這角度來說,RTX 5090 會到何等天價,耗電量有多麼驚人,好像也不是值得眾人傷腦筋的重點了。

(首圖來源:Image by Freepik

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多科技相關文章

01

路透:輝達擬提高H200晶片產量 因應中國強勁需求

路透社
02

英特爾已測試涉中晶片設備 外界憂可能用於先進製程

路透社
03

迪士尼10億美元注資OpenAI Sora可使用經典角色

路透社
04

美參議員華倫籲黃仁勳出席聽證 說明川普售中國晶片決策

路透社
05

微軟強化 Windows 11,FSE、ASD 助力遊戲體驗升級

科技新報
06

3大電信影音收視榜揭曉 韓綜台劇動漫3大主力

卡優新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 1

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...