科技

Hot Chips 2024》萬眾注目的旗艦 AI GPU:遙遙領先的 Nvidia Blackwell、苦苦追趕的 AMD MI300X 和看不見影子的英特爾 Gaudi 3

科技新報
更新於 1天前 • 發布於 8小時前

今日 GPU 應用非常廣泛多元,早遠遠超過「繪圖」範疇,如高效能浮點運算、加密貨幣挖礦、智慧手機和自駕車人工智慧推理等,資料中心更塞滿滿連輸出畫面都不行的「運算限定」晶片,也許將 GPU 重新命名為「平行處理應用加速器單元」(PPAAU,Parallel-Processing Application Accelerator Unit)會更貼切。

人工智慧的世界,GPU(Graphic Processing Unit)簡寫更幾乎重新定義為「General Purpose Uuit」,過去與 CPU 較量、通用 GPU 運算(GPGPU)經常被詬病的「泛用性」,相較特定應用場域特化的「AI 加速器」,反倒是明顯強項。因此才會看到市值超過 3 兆美元的 Nvidia、近 3 千億美元的 AMD,以及連 1 千億美元都沒有的英特爾。

廣告(請繼續閱讀本文)

本屆 Hot Chips「資料中心御三家」都再次談到最新旗艦產品,與過去提及大同小異,但簡報均精煉不少,有更高可讀性,有助各位「溫故知新」。而「看圖說故事」之前,筆者依舊會不厭其煩簡介公司概況,有助讀者從琳瑯滿目的技術名詞提煉出充實人生的養分。

持續擴大絕對領先優勢的 Nvidia

1. 身為世界上最獨領風騷的「AI 算力軍火商」,如稱黃仁勳是「AI 教父」,還不如改叫「AI 算力軍火教父」,個人財富也超越「整家英特爾」市值,亦不乏惟恐天下不亂的網路鄉民,敲碗呼籲黃仁勳乾脆自己掏錢買下搖搖欲墜的英特爾。

廣告(請繼續閱讀本文)

2. 除了牢不可破的 CUDA 軟體生態體系,從晶片、子系統、單機伺服器、網路連結、運算機櫃到整台「Turnkey」超級電腦,均密不可分的高度垂直整合,換言之,扣除台灣稱霸世界的晶圓代工,那票替 Nvdia 抬轎子、高階主管搶著跟黃仁勳合照的眾多系統廠,某種程度只是打工組裝角色,這是台灣人自傲於「AI 之島」時,必須認清的現實,雖然只會做硬體也不見得是壞事。

3. 現在滿手是錢的 Nvidia,差不多可謂「想做什麼就做什麼」,並著手尖端研究,以便下代產品於集群(Cluster)層級滿足未來模型的需求,最近就釋出「限定研究用途,不許商業使用」的 NVLM 1.0 開源多模態大型語言模型,最大版本 NVLM-D-72B 達 720 億(72B)參數,開發團隊宣稱其視覺語言精確度,媲美業界領先 GPT-4o 私有模型,以及 Llama 3-V 40.5B、InternVL 2 等開源模型,舉例甚至包括理解迷因圖,NVLM-1.0 72B 多模態測試表現也優於 Google 的 Gemini 1.5 Pro。

4. 但多數人可能更好奇的是,Nvidia 將如何把手伸進 WoA(Windows On Arm)的微軟 Copilot+ PC,且後面會有哪些讓人意想不到的布局,又突然有驚天動地的併購,或更在意「預定明年 1 月 CES 登場的 RTX 5090 會賣多少錢,又會吃多少電」。

▲ 人工智慧領域,Nvidia 建立不只單一 GPU,而是整個緊密軟硬體垂直整合的生態系統,光憑硬體解決方案的完整度,業界沒有其他廠商看得到車尾燈。

▲ 2006 年問世的 CUDA 是 Nvidia「霸業」基礎,各式各樣應用如火紅人工智慧,全都奠基於此,生態圈有數以百萬計的開發人員。

▲ Nvidia 新 Blackwell 平台涵蓋 CPU 到 GPU 互連的各類型網路,如 NVLink、InfiniBand 和 Ethernet,不只有 GPU。

▲ Blackwell GPU 六個主要特色:2,080 億電晶體、支援 FP4 / FP6 張量浮點格式的 Transformer 引擎、更安全的運算環境隔離性、可延展至 576 個 GPU 的第五代 NVLink、執行 100% 系統內自我測試的 RAS(可靠性、可用性和可維護性)引擎、800GB/s 解壓縮引擎。

▲ Blackwell 是非常巨大的 GPU,因應人工智慧推論需求,刻意擴充低精度資料支援度,「Going Bigger With Smaller Data」堪稱最貼切的寫照。

▲ Nvidia 長期主導 GPU 市場,也手握「最高階 AI 運算 GPU」,由兩顆晶粒組成的 Blackwell 更是前所未見的巨大。

▲ Nvidia NV-HBI 介面在兩個 GPU 間提供高達 10TB/s 雙向理論頻寬。

▲ Nvidia GB200 Superchip 由一顆 72 核 Arm Neoverse V2 的 Grace CPU 和兩顆 Blackwell GPU 組成。一個計算托盤有兩個 GB200 Superchip,總計兩顆 Grace GPU 和四顆 Blackwell GPU。

▲ 降低計算精度是提高運算效能、降低儲存空間的常見手段,Nvidia Blackwell 有新 FP4 和 FP6,效能是前代 Hopper 的 FP8 兩倍或四倍。

▲ Nvidia Quasar Quantization 系統找出適用較低精度的內容,減少計算和儲存。

▲ Nvidia 表示,某些推理 FP4 可接近 FP16 效能與精度。

▲ Blackwell GPU 分別使用 FP16 和 FP4 模型產生兔子圖,看起來幾乎一模一樣。

▲ AI 模型規模不斷成長,十年內長了「七萬倍」。

▲ Nvidia 無需等待 PCI-SIG 的「PCIe 業界標準」,即可自行 NVLink 導入更先進編碼調變,頻寬繼續輾壓所有對手。

▲ NVLink Switch(NVSwitch)晶片與交換器托盤是讓數以百計 GPU 垂直擴充(Scale-Up)成「超大 GPU」的基礎。

▲ 單 NVLink 網域,GPU 數從 2016 年八個一路進步至 72 個,Hot Chips 30(2018 年)16 個 Volta GPU(V100)的 DGX-2 資訊都省略了。

▲ Nvidia 在 GB200 世代 NVL72 與 NVL36 運算機架,數字代表 GPU 數量,NVL36 是 36 個 Blackwell GPU 版,適用無法部署 120kW 功耗機架的資料中心。

▲ 因併購 Mellanox,不限 InfiniBand,Nvidia 也有完整乙太網路方案,其實 Nvidia 已在做 UltraEthernet 聯盟打算做的事,天知道這聯盟會不會最後一無所獲。

▲ GB200 NVL72 專為「兆」等級推論模型參數打造。

▲ 模型越來越大,勢必分配工作給多個 GPU,甚至將單一網路層參數張量分散至 GPU(TP,Tensor Parallelism,張量平行度),減少 GPU 交換資料時浪費的運算能力。

▲ 因 Blackwell 夠大,單 GPU 足以處理專家模型,藉模型層級專家平行度(EP,Expert Parallelism)將 MoE(Mixture of Experts)專家分布至各 GPU,每個「專家」都負責不同任務。

▲ 結合張量平行度(TP)、專家平行度(EP)和管線平行度(PP,Pipeline Parallelism,將一個任務切成不同階段,GPU 完成後部分交由下個 GPU 接手),Blackwell 執行 GPT-MoE 1.8T 的效能,可達前代 Hopper 的 30 倍。

▲ 與英特爾鐘擺(Tick-Tock)節奏相似,Nvidia 約兩年推出新 GPU 架構,中間夾一個改良版,時程表可清楚看見:下代 Rubin GPU(八顆 HBM4)、Vera GPU、第六代 NVLink、1.6Tb/s 網路卡與 InfiniBand/乙太網路交換器、Rubin Ultra GPU(12 顆 HBM4),並暗示有三款「其他晶片」。筆者大概可「猜」到是什麼,但先假裝不知道好了。

▲ 總結,就是 Nvidia 整體解決方案很完整好棒棒,並感謝數以千計讓 Blackwell 成為現實的 Nvidia 員工。

業務聚焦資料中心的 AMD

1. AMD 2024 年第二季財報,營收達 58 億美元,獲利超過華爾街預期,以 MI300 系列為主的 AI 晶片銷售持續成長,資料中心業務年增高達 115%,達 28 億美元,占近 50% 收入。上任剛滿十年的 AMD 執行長蘇姿丰(Lisa Su)更在 9 月高盛 Communacopia 論壇宣示:AMD 現在是「資料中心優先」公司了。

2. 準備致力垂直整合的 AMD,先是 7 月以 6.65 億美元併購芬蘭 AI 模型公司 Silo AI,後來 8 月又以 49 億美元收購美國 AI 基礎設施供應商 ZT Systems(微軟 Azure MI300X 系統的生產商),目的是提高系統設計能力,以便推出能跟 Nvidia 競爭的「整體解決方案」。

3. 如 AMD 先前公布時程表,年底推出 288GB HBM3E 記憶體的 MI325X,2025 年 CDNA4 架構 MI350 系列(首發 MI355X),2026 年更新架構 MI400 系列。

4. 國慶日同場加映:AMD 美國時間 10 月 10 日發表 MI325X,也披露 CDNA4、台積電 3 奈米製程 MI355X,後者亦步亦趨跟隨 Nvidia Blackwell 追加 FP4 / FP6 格式,表定 2025 下半年供貨。

5. 論 GPU 架構,AMD 目前有 RDNA 與 CDNA 各自對應遊戲和資料中心,兩者未來統一為 UDNA 以兼顧兩者,節約研發資源,並一勞永逸確保開發環境一致性與向下相容性,如 Nvidia CUDA 吸引數以百萬計開發者。但 AMD 並未透露何時完成「統一大業」,可預期還會看到 AMD 維持雙軌路線好一陣子,兩三年跑不掉。

▲ 筆者不得不說,AMD 近年簡報風格非常非常漂亮,且更難能可貴的是,AMD 已不是十年前的「簡報王」。順道一題,10 月剛好是蘇姿丰上任 AMD 執行長滿十年,只能說時間過得真快,現在市值是英特爾三倍的 AMD 早非昔日被英特爾和 Nvidia 輪流圍毆的吳下阿蒙,而是追趕「AI 算力軍火商」Nvidia 的競爭者。

▲ MI300 分成「超級 APU」MI300A 和「超級 GPU」MI300X,前者用於 HPE EI Capitan 等超級電腦,後者則熱銷至各大雲端服務供應商(CSP),貢獻今年「45 億 AI 晶片營收」大部分。

▲ MI300 可謂 EHP(Exascale Heterogenous Processor)多年耕耘的成果,由多片 Chiplet 組成,含 304 個計算單元(CU,Compute Unit)和 192GB HBM3 記憶體。

▲ MI300X CDNA3 較 MI250X CDNA2 效能提升幅度,支援資料精度多了 TF32 和 FP8 格式是最明顯的差異。

▲ 192GB HBM3 記憶體有更大容量與更高頻寬,不過和自家前代 MI250X 相比也就算了,到現在還是只能挑兩年多前 Nvidia H100 當對手,實在勝之不武。

▲ 計算用 XCD(關閉兩個 CU 以提升良率)、巨大 Infinity Cache、Infinity Fabric 與 HBM3 記憶體晶片的連接架構圖。

▲ MI300X 整體記憶體階層架構,不僅 SIMD 單元各自專用資料暫存器、CU 單元的 L1 快取和區域共享記憶體(LDS,Local Data Share),由內至外,可看到八個 4MB 的 L2 快取、256MB Infinity Cache 和 192GB HBM3。

▲ 如同 EPYC,MI300X 可定義 NPS(NUMA Nodes per Socket),定義運算核心群存取記憶體通道的方式,包括「湊在一起的 NPS1」(頻寬最高、延遲最長)和「切成四塊的 NPS4」(頻寬最低、延遲最短)。另外基於 PCIe 的 SR-IOV,MI300X 可切分成不同分割區,以對付虛擬化環境。筆者補充,2016 年初 AMD FirePro S7150 是世界首款支援 SR-IOV 的 GPU,處理器內顯則是起自英特爾第 12 代 Core Alder Lake。

▲ AMD 最主要 MI300X 平台建構於八路 OCP 加速模組(OAM,OCP Accelerator Module)。

▲ 從只有 PCIe 運算卡的 MI100,一路發展到 OAM 的 MI200 和 MI300 家族。

▲ 這就是 AMD 能提出的「Nvidia HGX 替代方案」,即使落後很多年。

▲ MI300X 以七個 Infinity Fabric 連接其他 GPU,再經 PCIe x16 Gen5 連接伺服器主機。

▲ 公開標準、安全性、RAS(可靠性、可用性和可維護性)、可遙測性與韌體管理,對當下 AI 運算集群是必備需求。

▲ 已發表的 MI300X 伺服器,但不見戴爾(Dell)也不見緯穎(Wiwynn),後者今年 COMPUTEX 展示八路 MI300X 的 GS1800A(及八路英特爾 Gaudi 3 的 GS1800G)。

▲ AMD不厭其煩的介紹歷程超過七年的「開放軟體生態系統」ROCm(Radeon Open Compute platform),但支援硬體型號太少一直是致命傷,也不見 AMD 的 Unified AI Stack,大概是要等到年底才會有較清晰的輪廓吧。

▲ 執行兩種生程式 AI 大型語言模型推論的詞元產生輸出率,MI300X「理所當然」擊敗 Nvidia H100,但現在應當更多人積極部署 H200(141GB HBM3E),或等待更新 B200A(原 B100)和 B200。AMD 年底會推出記憶體升級至 288GB HBM3E 的 MI325X,用更充沛的記憶體容量(可塞入更大模型)抵銷運算效能與生態系統成熟度的劣勢。

▲ 微調後 MPT-30B 訓練,雙方扯平,筆者先不深究背後意義,但很肯定的是軟體層面遠大於硬體規格。

▲ MI300X 是 2023 年產品,AMD 也將一年推一款新品追上 Nvidia。儘管無人知曉 AMD 需多少時間才能追上,但憑著銷售數十億美元的產品線,AMD 鞏固了 AI GPU 領域僅次 Nvidia 的二把手地位。

▲ 國慶日同場加映:AMD 美國時間 10 月 10 日公開 MI300X 改良版 MI325X,記憶體升級至 256GB HBM3E,理論頻寬也略增至 6TB/s。

▲ 國慶日同場加映:MI325X 對手總算從 Nvidia H100「升級」到 H200。

▲ 國慶日同場加映:CDNA4 世代 MI350 的 XCD 採台積電 3 奈米製程,288GB HBM3E 記憶體理論頻寬提升至 8TB/s,資料格式新增 FP4 / FP6,追上 Nvidia Blackwell 腳步。

▲ 國慶日同場加映:雖然 MI355X 較 MI325X 效能飛躍進步,但理論效能基本上是連 Nvidia Blackwell(B200)一半都不到(20PF,FP4 或 10PF,FP6 / FP8),只能說革命尚未成功,AMD 仍須努力。

手握救命稻草試圖振衰起蔽的英特爾

1. 相對「手感正熱」的 Nvidia 與 AMD,Gaudi 3 怎麼看都不像傳統意義的「GPU」,還不如改名「平行處理應用加速器單元」(PPAAU,Parallel-Processing Application Accelerator Unit),光「AI 加速器」怎麼看都太籠統。

2. 營運陷入困境的英特爾,短期未因陸續端出有競爭力的產品(Xeon 6 家族、Gaudi 3、Lunar Lake)而好轉,反因「因應策略調整和終端需求變化」,大幅調降 AI 晶片 Gaudi 3 的 2025 年出貨目標,降幅高達三成,讓被砍單的台灣供應鏈淪為受災戶,也打亂原有意採購此晶片的伺服器廠商出貨節奏,只能硬著頭皮請 Nvidia 和 AMD「多給一點晶片」。

3. 8 月底英特爾與 IBM 共同宣布,合作 IBM Cloud 部署 Gaudi 3 服務,預定 2025 年初推出,IBM 也是首家引進 Gaudi 3 的雲端服務商,但仍難遏止英特爾的頹勢,畢竟 IBM Cloud 市占率遠不如三大公有雲(AWS、微軟、Google),僅約 2.5%。

4. 緊接著 Hot Chips 2024,一個月後就是英特爾宣布 Gaudi 3 全面上市(GA,General Availability)的產品發表會,以更精美的簡報,揭露更多技術細節,所以本次「加量不加價」整合兩場內容並刪除重複處,讓各位更充分感受「簡報豐富度與實際商業成績成反比」的強烈違和感。

▲ 自 2019 年,源自 Habana Labs 的 Gaudi 發展到第三代,共同點還是「內建乙太網路」。

▲ Gaudi 3 由兩顆晶片 2.5D 封裝 EMIB 組成,為何記憶體只能用 HBM2e,或許只能解釋為「HBM3 早被 Nvidia 和 AMD 掃光了」。

▲ 非常有趣的是,Gaudi 3 內建高達 14 個解碼器,涵蓋 HEVC(H.265)、H.264、JPEG、VP9 等影音格式,對加速視訊分析推理應用很重要。

▲ 每個晶片都有兩個深度學習核心(DCORE),各有一對矩陣乘法引擎和 16 個張量處理器核心,以及 24MB 快取記憶體。

▲ Gaudi 3 兩種運算單元:矩陣乘法引擎與張量處理器核心。

▲ 矩陣乘法引擎支援 BF16 跟 FP8 格式,與沒有列上去的 TF32。

▲ 張量處理器核心為應對「非矩陣乘法」(Non-Matmul)運算,兼具純量與向量,但比矩陣乘法引擎少了 TF32。

▲ L2 / L3 快取與 HBM 共用統一記憶體定址空間,可使用記憶體上下文 ID(MCID)這種「快取暗示」(Cache Hint)操作快取記憶體的行為,如無須被快取(No-$)、放在 L2(L2$)、放在 L3(L3$)、一起放在 L2 / L3(L2$+L3$)。L2 快取有專屬整數邏輯運算單元,可做「簡單的近記憶體運算」,減少張量處理器核心的工作量。

▲ Gaudi 3 有特殊執行環境驅動程式與分而治之的晶片內網路(NoC,Network-on-Chip),可動態調整控制訊息路徑和工作分配。

▲ Gaudi 3 軟體套件包,但看來尚未整合至 OneAPI,假若後繼 Falcon Shores GPU 也延續 Gaudi 部分架構,可能是一大疑慮,但現在討論這個也無濟於事。

▲ 圖像編譯器協調兩種運算單元工作分配,晶片內網路設計則確保兩邊可平行運行,並充分管線化工作排程,以改進計算利用率。

▲ Habana Labs 的「Gaudi 大法」:無論垂直(Scale-Up)還是水平擴展(Scale-Out),由內到外都 RDMA 乙太網路互連,充分符合英特爾重視乙太網路的策略。

▲ 執行生成式 AI 大型語言模型推論的效能比較,從成長比例看,Llama-3 還有待繼續最佳化。

▲ 從單卡、八晶片節點、機櫃到叢集,Gaudi 3 均奠基於乙太網路上,降低建置成本並縮短組裝時間。

▲ 從個人電腦到邊緣運算到資料中心,英特爾不得不「全面擁抱 AI」。

▲ 已出貨的兩種 Gaudi 3 伺服器型號。

▲ 現階段 Gaudi 3「理論上」可擴展至 1,024 個運算節點,總計 8,192 個「AI 加速器」。

▲ 以 32 節點(256 個 Gaudi 3)為例,加上儲存、控制和網路,需要 15 個機架,算是相對「中等密度」的配置。

▲ 結合預先訓練大型語言模型與外部資料來源的檢索增強生成(RAG,Retrieval Augmented Generation)讓大型語言模型(LLM)能不經再訓練,利用更多資料改善生成式 AI 品質,此簡報講述英特爾幫助客戶和合作夥伴,為企業提供「經過驗證後的 RAG 體驗」。

▲ 即便 OAM 的 HL-325L 與 HLB-325 較吸引目光,但 Gaudi 3 也有 PCIe 介面卡版本 HL-338。

▲ 看在 600W 功耗的份上,伺服器需要高功率電源供應器與足夠散熱風流。隱約可見卡上有安裝連接多卡背板的位置。

▲ HL-338 可輸出兩個 400GbE QSFP-DD 網路界面,四張 HL-338透過 HLTB-304 頂部背板,執行機箱內卡到卡傳輸,當然,通訊協定還是乙太網路。

▲ 面對 Nvidia 可想見所有環節的絕對領先優勢,英特爾現在只能先與兩年多年的 H100「競爭」效能和性價比,依「1.19 倍效能」和「兩倍性價比」,推算出 Gaudi 3 價格最多只能賣到 H100 六成,但可能還是比 AMD MI300X 貴。

▲ 就算英特爾列出再多軟體開發框架和各式各樣模型,依然改變不了看不見 Nvidia 和 AMD 背影的現況。Gaudi 3 對潛在客戶的唯一誘因恐怕只剩「買不到 Nvidia 和 AMD 產品」。

雲端巨頭能否自研 AI 晶片「球員兼裁判」?

市值比肩蘋果和微軟的 Nvidia「AI 算力霸權」看似難撼動,為打破壟斷局面,也促使所有上得了檯面的科技巨頭和晶片大廠,紛紛化敵為友,組織軟硬兼備的「反 Nvidia 聯盟」,只為跨越 Nvidia 兩條主要護城河:CUDA 與 NVLink。

近期結果就是抵制 CUDA 的「UXL」(Unified Acceleration Foundation)、對抗 NVLink 的「UALink」(Ultra Accelerator Link),加上以 InfiniBand(Mellanox)為頭號假想敵的超級乙太網路聯盟(Ultra Ethernet Consortium,UEC)。

但問題來了,三者何年何月何日能落實至夠水準的「開放產業標準」與「真正產品」?這段時間 Nvidia 獨門技術又會演化幾代?到處都是滿滿問號的大哉問。

除此之外,假如再根據呆伯特法則「天下任何事物都有邏輯極限」,再看看巨型雲端服務業者前仆後繼自研處理器,那「世界的盡頭」不外乎「假以時日,他們完完全全不需要 Nvidia GPU,ㄧ顆都不用」(如果能有這天,x86 雙雄多半凶多吉少),「自用」也就算了,但看到下圖,再想想現今多數跑在雲端的 GPU 實例叫什麼名字,相信對這條「不存在世界線」抱有熱切期待的人,都會心瞬間涼半截,極度有限的想像力開始發出淒厲的哀號。

▲ 網路流傳的資料中心 AI 晶片時程表,不但可清楚看到雲端巨頭自研晶片的合作夥伴,更可意識到 Nvidia 和台積電難以動搖的地位。

話說回來,不論 Nvidia 終究難逃各國政府反壟斷調查,會造成多大衝擊,站在個人電腦使用者的立場,Nvidia 並沒有因「資料中心超好賺」而停止發展旗艦級消費性顯示卡(反觀 AMD 和尚未做出旗艦卡的英特爾),並對個人電腦市場抱持相對積極態度,不啻功德一件,否則屆時再有錢,也買不到跑得動頂規遊戲的電腦硬體。既然如此,就這角度來說,RTX 5090 會到何等天價,耗電量有多麼驚人,好像也不是值得眾人傷腦筋的重點了。

(首圖來源:Image by Freepik

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章
留言 1
  • PANj 吉
    我已經發文說了,死人產業鏈不能振興經濟、更不會刺激消費!一個巨大的泡泡,也只有負債龐大的米國吹得起來,各界熱切期盼的陰謀亂象。AI 不是必需品!
    7小時前
顯示全部