Hot Chips 2024》萬眾注目的旗艦 AI GPU：遙遙領先的 Nvidia Blackwell、苦苦追趕的 AMD MI300X 和看不見影子的英特爾 Gaudi 3

今日 GPU 應用非常廣泛多元，早遠遠超過「繪圖」範疇，如高效能浮點運算、加密貨幣挖礦、智慧手機和自駕車人工智慧推理等，資料中心更塞滿滿連輸出畫面都不行的「運算限定」晶片，也許將 GPU 重新命名為「平行處理應用加速器單元」（PPAAU，Parallel-Processing Application Accelerator Unit）會更貼切。

人工智慧的世界，GPU（Graphic Processing Unit）簡寫更幾乎重新定義為「General Purpose Uuit」，過去與 CPU 較量、通用 GPU 運算（GPGPU）經常被詬病的「泛用性」，相較特定應用場域特化的「AI 加速器」，反倒是明顯強項。因此才會看到市值超過 3 兆美元的 Nvidia、近 3 千億美元的 AMD，以及連 1 千億美元都沒有的英特爾。

廣告（請繼續閱讀本文）

本屆 Hot Chips「資料中心御三家」都再次談到最新旗艦產品，與過去提及大同小異，但簡報均精煉不少，有更高可讀性，有助各位「溫故知新」。而「看圖說故事」之前，筆者依舊會不厭其煩簡介公司概況，有助讀者從琳瑯滿目的技術名詞提煉出充實人生的養分。

持續擴大絕對領先優勢的 Nvidia

1. 身為世界上最獨領風騷的「AI 算力軍火商」，如稱黃仁勳是「AI 教父」，還不如改叫「AI 算力軍火教父」，個人財富也超越「整家英特爾」市值，亦不乏惟恐天下不亂的網路鄉民，敲碗呼籲黃仁勳乾脆自己掏錢買下搖搖欲墜的英特爾。

廣告（請繼續閱讀本文）

2. 除了牢不可破的 CUDA 軟體生態體系，從晶片、子系統、單機伺服器、網路連結、運算機櫃到整台「Turnkey」超級電腦，均密不可分的高度垂直整合，換言之，扣除台灣稱霸世界的晶圓代工，那票替 Nvdia 抬轎子、高階主管搶著跟黃仁勳合照的眾多系統廠，某種程度只是打工組裝角色，這是台灣人自傲於「AI 之島」時，必須認清的現實，雖然只會做硬體也不見得是壞事。

3. 現在滿手是錢的 Nvidia，差不多可謂「想做什麼就做什麼」，並著手尖端研究，以便下代產品於集群（Cluster）層級滿足未來模型的需求，最近就釋出「限定研究用途，不許商業使用」的 NVLM 1.0 開源多模態大型語言模型，最大版本 NVLM-D-72B 達 720 億（72B）參數，開發團隊宣稱其視覺語言精確度，媲美業界領先 GPT-4o 私有模型，以及 Llama 3-V 40.5B、InternVL 2 等開源模型，舉例甚至包括理解迷因圖，NVLM-1.0 72B 多模態測試表現也優於 Google 的 Gemini 1.5 Pro。

4. 但多數人可能更好奇的是，Nvidia 將如何把手伸進 WoA（Windows On Arm）的微軟 Copilot+ PC，且後面會有哪些讓人意想不到的布局，又突然有驚天動地的併購，或更在意「預定明年 1 月 CES 登場的 RTX 5090 會賣多少錢，又會吃多少電」。

▲ 人工智慧領域，Nvidia 建立不只單一 GPU，而是整個緊密軟硬體垂直整合的生態系統，光憑硬體解決方案的完整度，業界沒有其他廠商看得到車尾燈。

▲ 2006 年問世的 CUDA 是 Nvidia「霸業」基礎，各式各樣應用如火紅人工智慧，全都奠基於此，生態圈有數以百萬計的開發人員。

▲ Nvidia 新 Blackwell 平台涵蓋 CPU 到 GPU 互連的各類型網路，如 NVLink、InfiniBand 和 Ethernet，不只有 GPU。

▲ Blackwell GPU 六個主要特色：2,080 億電晶體、支援 FP4 / FP6 張量浮點格式的 Transformer 引擎、更安全的運算環境隔離性、可延展至 576 個 GPU 的第五代 NVLink、執行 100% 系統內自我測試的 RAS（可靠性、可用性和可維護性）引擎、800GB/s 解壓縮引擎。

▲ Blackwell 是非常巨大的 GPU，因應人工智慧推論需求，刻意擴充低精度資料支援度，「Going Bigger With Smaller Data」堪稱最貼切的寫照。

▲ Nvidia 長期主導 GPU 市場，也手握「最高階 AI 運算 GPU」，由兩顆晶粒組成的 Blackwell 更是前所未見的巨大。

▲ Nvidia NV-HBI 介面在兩個 GPU 間提供高達 10TB/s 雙向理論頻寬。

▲ Nvidia GB200 Superchip 由一顆 72 核 Arm Neoverse V2 的 Grace CPU 和兩顆 Blackwell GPU 組成。一個計算托盤有兩個 GB200 Superchip，總計兩顆 Grace GPU 和四顆 Blackwell GPU。

▲ 降低計算精度是提高運算效能、降低儲存空間的常見手段，Nvidia Blackwell 有新 FP4 和 FP6，效能是前代 Hopper 的 FP8 兩倍或四倍。

▲ Nvidia Quasar Quantization 系統找出適用較低精度的內容，減少計算和儲存。

▲ Nvidia 表示，某些推理 FP4 可接近 FP16 效能與精度。

▲ Blackwell GPU 分別使用 FP16 和 FP4 模型產生兔子圖，看起來幾乎一模一樣。

▲ AI 模型規模不斷成長，十年內長了「七萬倍」。

▲ Nvidia 無需等待 PCI-SIG 的「PCIe 業界標準」，即可自行 NVLink 導入更先進編碼調變，頻寬繼續輾壓所有對手。

▲ NVLink Switch（NVSwitch）晶片與交換器托盤是讓數以百計 GPU 垂直擴充（Scale-Up）成「超大 GPU」的基礎。

▲ 單 NVLink 網域，GPU 數從 2016 年八個一路進步至 72 個，Hot Chips 30（2018 年）16 個 Volta GPU（V100）的 DGX-2 資訊都省略了。

▲ Nvidia 在 GB200 世代 NVL72 與 NVL36 運算機架，數字代表 GPU 數量，NVL36 是 36 個 Blackwell GPU 版，適用無法部署 120kW 功耗機架的資料中心。

▲ 因併購 Mellanox，不限 InfiniBand，Nvidia 也有完整乙太網路方案，其實 Nvidia 已在做 UltraEthernet 聯盟打算做的事，天知道這聯盟會不會最後一無所獲。

▲ GB200 NVL72 專為「兆」等級推論模型參數打造。

▲ 模型越來越大，勢必分配工作給多個 GPU，甚至將單一網路層參數張量分散至 GPU（TP，Tensor Parallelism，張量平行度），減少 GPU 交換資料時浪費的運算能力。

▲ 因 Blackwell 夠大，單 GPU 足以處理專家模型，藉模型層級專家平行度（EP，Expert Parallelism）將 MoE（Mixture of Experts）專家分布至各 GPU，每個「專家」都負責不同任務。

▲ 結合張量平行度（TP）、專家平行度（EP）和管線平行度（PP，Pipeline Parallelism，將一個任務切成不同階段，GPU 完成後部分交由下個 GPU 接手），Blackwell 執行 GPT-MoE 1.8T 的效能，可達前代 Hopper 的 30 倍。

▲ 與英特爾鐘擺（Tick-Tock）節奏相似，Nvidia 約兩年推出新 GPU 架構，中間夾一個改良版，時程表可清楚看見：下代 Rubin GPU（八顆 HBM4）、Vera GPU、第六代 NVLink、1.6Tb/s 網路卡與 InfiniBand／乙太網路交換器、Rubin Ultra GPU（12 顆 HBM4），並暗示有三款「其他晶片」。筆者大概可「猜」到是什麼，但先假裝不知道好了。

▲ 總結，就是 Nvidia 整體解決方案很完整好棒棒，並感謝數以千計讓 Blackwell 成為現實的 Nvidia 員工。

業務聚焦資料中心的 AMD

1. AMD 2024 年第二季財報，營收達 58 億美元，獲利超過華爾街預期，以 MI300 系列為主的 AI 晶片銷售持續成長，資料中心業務年增高達 115%，達 28 億美元，占近 50% 收入。上任剛滿十年的 AMD 執行長蘇姿丰（Lisa Su）更在 9 月高盛 Communacopia 論壇宣示：AMD 現在是「資料中心優先」公司了。

2. 準備致力垂直整合的 AMD，先是 7 月以 6.65 億美元併購芬蘭 AI 模型公司 Silo AI，後來 8 月又以 49 億美元收購美國 AI 基礎設施供應商 ZT Systems（微軟 Azure MI300X 系統的生產商），目的是提高系統設計能力，以便推出能跟 Nvidia 競爭的「整體解決方案」。

3. 如 AMD 先前公布時程表，年底推出 288GB HBM3E 記憶體的 MI325X，2025 年 CDNA4 架構 MI350 系列（首發 MI355X），2026 年更新架構 MI400 系列。

4. 國慶日同場加映：AMD 美國時間 10 月 10 日發表 MI325X，也披露 CDNA4、台積電 3 奈米製程 MI355X，後者亦步亦趨跟隨 Nvidia Blackwell 追加 FP4 / FP6 格式，表定 2025 下半年供貨。

5. 論 GPU 架構，AMD 目前有 RDNA 與 CDNA 各自對應遊戲和資料中心，兩者未來統一為 UDNA 以兼顧兩者，節約研發資源，並一勞永逸確保開發環境一致性與向下相容性，如 Nvidia CUDA 吸引數以百萬計開發者。但 AMD 並未透露何時完成「統一大業」，可預期還會看到 AMD 維持雙軌路線好一陣子，兩三年跑不掉。

▲ 筆者不得不說，AMD 近年簡報風格非常非常漂亮，且更難能可貴的是，AMD 已不是十年前的「簡報王」。順道一題，10 月剛好是蘇姿丰上任 AMD 執行長滿十年，只能說時間過得真快，現在市值是英特爾三倍的 AMD 早非昔日被英特爾和 Nvidia 輪流圍毆的吳下阿蒙，而是追趕「AI 算力軍火商」Nvidia 的競爭者。

▲ MI300 分成「超級 APU」MI300A 和「超級 GPU」MI300X，前者用於 HPE EI Capitan 等超級電腦，後者則熱銷至各大雲端服務供應商（CSP），貢獻今年「45 億 AI 晶片營收」大部分。

▲ MI300 可謂 EHP（Exascale Heterogenous Processor）多年耕耘的成果，由多片 Chiplet 組成，含 304 個計算單元（CU，Compute Unit）和 192GB HBM3 記憶體。

▲ MI300X CDNA3 較 MI250X CDNA2 效能提升幅度，支援資料精度多了 TF32 和 FP8 格式是最明顯的差異。

▲ 192GB HBM3 記憶體有更大容量與更高頻寬，不過和自家前代 MI250X 相比也就算了，到現在還是只能挑兩年多前 Nvidia H100 當對手，實在勝之不武。

▲ 計算用 XCD（關閉兩個 CU 以提升良率）、巨大 Infinity Cache、Infinity Fabric 與 HBM3 記憶體晶片的連接架構圖。

▲ MI300X 整體記憶體階層架構，不僅 SIMD 單元各自專用資料暫存器、CU 單元的 L1 快取和區域共享記憶體（LDS，Local Data Share），由內至外，可看到八個 4MB 的 L2 快取、256MB Infinity Cache 和 192GB HBM3。

▲ 如同 EPYC，MI300X 可定義 NPS（NUMA Nodes per Socket），定義運算核心群存取記憶體通道的方式，包括「湊在一起的 NPS1」（頻寬最高、延遲最長）和「切成四塊的 NPS4」（頻寬最低、延遲最短）。另外基於 PCIe 的 SR-IOV，MI300X 可切分成不同分割區，以對付虛擬化環境。筆者補充，2016 年初 AMD FirePro S7150 是世界首款支援 SR-IOV 的 GPU，處理器內顯則是起自英特爾第 12 代 Core Alder Lake。

▲ AMD 最主要 MI300X 平台建構於八路 OCP 加速模組（OAM，OCP Accelerator Module）。

▲ 從只有 PCIe 運算卡的 MI100，一路發展到 OAM 的 MI200 和 MI300 家族。

▲ 這就是 AMD 能提出的「Nvidia HGX 替代方案」，即使落後很多年。

▲ MI300X 以七個 Infinity Fabric 連接其他 GPU，再經 PCIe x16 Gen5 連接伺服器主機。

▲ 公開標準、安全性、RAS（可靠性、可用性和可維護性）、可遙測性與韌體管理，對當下 AI 運算集群是必備需求。

▲ 已發表的 MI300X 伺服器，但不見戴爾（Dell）也不見緯穎（Wiwynn），後者今年 COMPUTEX 展示八路 MI300X 的 GS1800A（及八路英特爾 Gaudi 3 的 GS1800G）。

▲ AMD不厭其煩的介紹歷程超過七年的「開放軟體生態系統」ROCm（Radeon Open Compute platform），但支援硬體型號太少一直是致命傷，也不見 AMD 的 Unified AI Stack，大概是要等到年底才會有較清晰的輪廓吧。

▲ 執行兩種生程式 AI 大型語言模型推論的詞元產生輸出率，MI300X「理所當然」擊敗 Nvidia H100，但現在應當更多人積極部署 H200（141GB HBM3E），或等待更新 B200A（原 B100）和 B200。AMD 年底會推出記憶體升級至 288GB HBM3E 的 MI325X，用更充沛的記憶體容量（可塞入更大模型）抵銷運算效能與生態系統成熟度的劣勢。

▲ 微調後 MPT-30B 訓練，雙方扯平，筆者先不深究背後意義，但很肯定的是軟體層面遠大於硬體規格。

▲ MI300X 是 2023 年產品，AMD 也將一年推一款新品追上 Nvidia。儘管無人知曉 AMD 需多少時間才能追上，但憑著銷售數十億美元的產品線，AMD 鞏固了 AI GPU 領域僅次 Nvidia 的二把手地位。

▲ 國慶日同場加映：AMD 美國時間 10 月 10 日公開 MI300X 改良版 MI325X，記憶體升級至 256GB HBM3E，理論頻寬也略增至 6TB/s。

▲ 國慶日同場加映：MI325X 對手總算從 Nvidia H100「升級」到 H200。

▲ 國慶日同場加映：CDNA4 世代 MI350 的 XCD 採台積電 3 奈米製程，288GB HBM3E 記憶體理論頻寬提升至 8TB/s，資料格式新增 FP4 / FP6，追上 Nvidia Blackwell 腳步。

▲ 國慶日同場加映：雖然 MI355X 較 MI325X 效能飛躍進步，但理論效能基本上是連 Nvidia Blackwell（B200）一半都不到（20PF，FP4 或 10PF，FP6 / FP8），只能說革命尚未成功，AMD 仍須努力。

手握救命稻草試圖振衰起蔽的英特爾

1. 相對「手感正熱」的 Nvidia 與 AMD，Gaudi 3 怎麼看都不像傳統意義的「GPU」，還不如改名「平行處理應用加速器單元」（PPAAU，Parallel-Processing Application Accelerator Unit），光「AI 加速器」怎麼看都太籠統。

2. 營運陷入困境的英特爾，短期未因陸續端出有競爭力的產品（Xeon 6 家族、Gaudi 3、Lunar Lake）而好轉，反因「因應策略調整和終端需求變化」，大幅調降 AI 晶片 Gaudi 3 的 2025 年出貨目標，降幅高達三成，讓被砍單的台灣供應鏈淪為受災戶，也打亂原有意採購此晶片的伺服器廠商出貨節奏，只能硬著頭皮請 Nvidia 和 AMD「多給一點晶片」。

3. 8 月底英特爾與 IBM 共同宣布，合作 IBM Cloud 部署 Gaudi 3 服務，預定 2025 年初推出，IBM 也是首家引進 Gaudi 3 的雲端服務商，但仍難遏止英特爾的頹勢，畢竟 IBM Cloud 市占率遠不如三大公有雲（AWS、微軟、Google），僅約 2.5%。

4. 緊接著 Hot Chips 2024，一個月後就是英特爾宣布 Gaudi 3 全面上市（GA，General Availability）的產品發表會，以更精美的簡報，揭露更多技術細節，所以本次「加量不加價」整合兩場內容並刪除重複處，讓各位更充分感受「簡報豐富度與實際商業成績成反比」的強烈違和感。

▲ 自 2019 年，源自 Habana Labs 的 Gaudi 發展到第三代，共同點還是「內建乙太網路」。

▲ Gaudi 3 由兩顆晶片 2.5D 封裝 EMIB 組成，為何記憶體只能用 HBM2e，或許只能解釋為「HBM3 早被 Nvidia 和 AMD 掃光了」。

▲ 非常有趣的是，Gaudi 3 內建高達 14 個解碼器，涵蓋 HEVC（H.265）、H.264、JPEG、VP9 等影音格式，對加速視訊分析推理應用很重要。

▲ 每個晶片都有兩個深度學習核心（DCORE），各有一對矩陣乘法引擎和 16 個張量處理器核心，以及 24MB 快取記憶體。

▲ Gaudi 3 兩種運算單元：矩陣乘法引擎與張量處理器核心。

▲ 矩陣乘法引擎支援 BF16 跟 FP8 格式，與沒有列上去的 TF32。

▲ 張量處理器核心為應對「非矩陣乘法」（Non-Matmul）運算，兼具純量與向量，但比矩陣乘法引擎少了 TF32。

▲ L2 / L3 快取與 HBM 共用統一記憶體定址空間，可使用記憶體上下文 ID（MCID）這種「快取暗示」（Cache Hint）操作快取記憶體的行為，如無須被快取（No-$）、放在 L2（L2$）、放在 L3（L3$）、一起放在 L2 / L3（L2$＋L3$）。L2 快取有專屬整數邏輯運算單元，可做「簡單的近記憶體運算」，減少張量處理器核心的工作量。

▲ Gaudi 3 有特殊執行環境驅動程式與分而治之的晶片內網路（NoC，Network-on-Chip），可動態調整控制訊息路徑和工作分配。

▲ Gaudi 3 軟體套件包，但看來尚未整合至 OneAPI，假若後繼 Falcon Shores GPU 也延續 Gaudi 部分架構，可能是一大疑慮，但現在討論這個也無濟於事。

▲ 圖像編譯器協調兩種運算單元工作分配，晶片內網路設計則確保兩邊可平行運行，並充分管線化工作排程，以改進計算利用率。

▲ Habana Labs 的「Gaudi 大法」：無論垂直（Scale-Up）還是水平擴展（Scale-Out），由內到外都 RDMA 乙太網路互連，充分符合英特爾重視乙太網路的策略。

▲ 執行生成式 AI 大型語言模型推論的效能比較，從成長比例看，Llama-3 還有待繼續最佳化。

▲ 從單卡、八晶片節點、機櫃到叢集，Gaudi 3 均奠基於乙太網路上，降低建置成本並縮短組裝時間。

▲ 從個人電腦到邊緣運算到資料中心，英特爾不得不「全面擁抱 AI」。

▲ 已出貨的兩種 Gaudi 3 伺服器型號。

▲ 現階段 Gaudi 3「理論上」可擴展至 1,024 個運算節點，總計 8,192 個「AI 加速器」。

▲ 以 32 節點（256 個 Gaudi 3）為例，加上儲存、控制和網路，需要 15 個機架，算是相對「中等密度」的配置。

▲ 結合預先訓練大型語言模型與外部資料來源的檢索增強生成（RAG，Retrieval Augmented Generation）讓大型語言模型（LLM）能不經再訓練，利用更多資料改善生成式 AI 品質，此簡報講述英特爾幫助客戶和合作夥伴，為企業提供「經過驗證後的 RAG 體驗」。

▲ 即便 OAM 的 HL-325L 與 HLB-325 較吸引目光，但 Gaudi 3 也有 PCIe 介面卡版本 HL-338。

▲ 看在 600W 功耗的份上，伺服器需要高功率電源供應器與足夠散熱風流。隱約可見卡上有安裝連接多卡背板的位置。

▲ HL-338 可輸出兩個 400GbE QSFP-DD 網路界面，四張 HL-338透過 HLTB-304 頂部背板，執行機箱內卡到卡傳輸，當然，通訊協定還是乙太網路。

▲ 面對 Nvidia 可想見所有環節的絕對領先優勢，英特爾現在只能先與兩年多年的 H100「競爭」效能和性價比，依「1.19 倍效能」和「兩倍性價比」，推算出 Gaudi 3 價格最多只能賣到 H100 六成，但可能還是比 AMD MI300X 貴。

▲ 就算英特爾列出再多軟體開發框架和各式各樣模型，依然改變不了看不見 Nvidia 和 AMD 背影的現況。Gaudi 3 對潛在客戶的唯一誘因恐怕只剩「買不到 Nvidia 和 AMD 產品」。

雲端巨頭能否自研 AI 晶片「球員兼裁判」？

市值比肩蘋果和微軟的 Nvidia「AI 算力霸權」看似難撼動，為打破壟斷局面，也促使所有上得了檯面的科技巨頭和晶片大廠，紛紛化敵為友，組織軟硬兼備的「反 Nvidia 聯盟」，只為跨越 Nvidia 兩條主要護城河：CUDA 與 NVLink。

近期結果就是抵制 CUDA 的「UXL」（Unified Acceleration Foundation）、對抗 NVLink 的「UALink」（Ultra Accelerator Link），加上以 InfiniBand（Mellanox）為頭號假想敵的超級乙太網路聯盟（Ultra Ethernet Consortium，UEC）。

但問題來了，三者何年何月何日能落實至夠水準的「開放產業標準」與「真正產品」？這段時間 Nvidia 獨門技術又會演化幾代？到處都是滿滿問號的大哉問。

除此之外，假如再根據呆伯特法則「天下任何事物都有邏輯極限」，再看看巨型雲端服務業者前仆後繼自研處理器，那「世界的盡頭」不外乎「假以時日，他們完完全全不需要 Nvidia GPU，ㄧ顆都不用」（如果能有這天，x86 雙雄多半凶多吉少），「自用」也就算了，但看到下圖，再想想現今多數跑在雲端的 GPU 實例叫什麼名字，相信對這條「不存在世界線」抱有熱切期待的人，都會心瞬間涼半截，極度有限的想像力開始發出淒厲的哀號。

▲ 網路流傳的資料中心 AI 晶片時程表，不但可清楚看到雲端巨頭自研晶片的合作夥伴，更可意識到 Nvidia 和台積電難以動搖的地位。

話說回來，不論 Nvidia 終究難逃各國政府反壟斷調查，會造成多大衝擊，站在個人電腦使用者的立場，Nvidia 並沒有因「資料中心超好賺」而停止發展旗艦級消費性顯示卡（反觀 AMD 和尚未做出旗艦卡的英特爾），並對個人電腦市場抱持相對積極態度，不啻功德一件，否則屆時再有錢，也買不到跑得動頂規遊戲的電腦硬體。既然如此，就這角度來說，RTX 5090 會到何等天價，耗電量有多麼驚人，好像也不是值得眾人傷腦筋的重點了。

（首圖來源：Image by Freepik）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

持續擴大絕對領先優勢的 Nvidia

業務聚焦資料中心的 AMD

手握救命稻草試圖振衰起蔽的英特爾

雲端巨頭能否自研 AI 晶片「球員兼裁判」？

更多科技相關文章

查看更多科技新報的文章

Hot Chips 2024》萬眾注目的旗艦 AI GPU：遙遙領先的 Nvidia Blackwell、苦苦追趕的 AMD MI300X 和看不見影子的英特爾 Gaudi 3

持續擴大絕對領先優勢的 Nvidia

業務聚焦資料中心的 AMD

手握救命稻草試圖振衰起蔽的英特爾

雲端巨頭能否自研 AI 晶片「球員兼裁判」？

更多 科技 相關文章

查看更多 科技新報 的文章

更多科技相關文章

查看更多科技新報的文章