英特爾、Nvidia 與 AMD 的「巨無霸人工智慧晶片」大亂鬥

拜微軟耗資數億美元替 OpenAI 建造 ChatGPT 的超級電腦、使用數萬顆 Nvidia 高階運算專用 GPU 所賜，今年台北國際電腦展（COMPUTEX 2023），除了重現久違多年的參觀人潮和國外訪客，一年一度大拜拜竟變成 Nvidia 創辦人黃仁勳的個人秀，許多後知後覺媒體拚命把他包裝成「AI 教父」，彷彿我們今日認知的 GPU，經歷 20 多年發展，今天才赫然發現有 Nvidia 這間公司和這號人物，讓人不禁莞爾。

接著沒過多久，AMD 發表兩款 MI300 晶片，又跑出「AMD 執行長蘇姿丰（Lisa Su）想從黃仁勳手上奪下 AI 王冠」之類惟恐天下不亂新聞標題。很諷刺的是， MI300 剛登場，AMD 股價「逆勢」下跌 3.6%，Nvidia 卻上漲 4%，當天市值首度站上「兆美元」大關，起因也不外乎「明年才能創造營收」、「尚無客戶確定採購」和「軟體生態落後太多」之類的理由，讓人呵欠連連。

但這還不是最慘。當媒體將焦點對準 Nvidia 和 AMD 頂上決戰，更早去年底就發表 Xeon Max（代號 Sapphire Rapids HBM）和 Data Center GPU Max（代號 Ponte Vecchio）產品線系列的英特爾，彷彿一點存在感都沒有。

多數媒體拚命炒作啥「XXX 概念股」時，更沒人關心「御三家」（英特爾、Nvidia、AMD）產品的優勝劣敗，Nvidia 宣傳的「超級晶片」（Superchip）相較其他兩家，究竟有沒有如字面的「超級」，好像也不重要了，黃仁勳在台期間跑了幾個夜市、COMPUTEX 結束後到底會不會飛往中國，似乎還更吸引眾人目光。

既然如此，筆者就趁機好好談談「現在」狀況，雖然認真的讀者一定早從下面規格比較表看出不少端倪，所謂「魔鬼藏在細節裡」大概就是這麼回事。

英特爾：出師不利，毫無存在感

▲ 因公司策略一再轉折錯失人工智慧商機的英特爾，一直努力直起直追，且頗有成果，但似乎少人關注，搞不好多數人都不知道英特爾首款專業運算 GPU 正式名稱是什麼，所以這次英特爾篇幅會特別長。

當「高效能運算」與「人工智慧」開始聚合，英特爾一直默默鴨子划水，但也遲遲等不到眾人關愛的眼神，鋒頭都被「皮衣教主」和「半導體女王」公司搶走了。

藉 EMIB 2.5D 封裝與 Foveros 3D 封裝等諸多先進「包水餃」技術，英特爾在正名為「Data Center GPU Max」的高階運算專用 GPU「Ponte Vecchio」，一口氣結合 47 個功能晶片，超過 1,000 億電晶體，總面積多達 2,330mm²：

16 個 Xe-HPC 架構的計算晶片（台積電 N5）。
8 個 RAMBO Cache 晶片（英特爾 Intel 7）。
2 個 Xe 機板晶片（英特爾 Intel 7）。
11 個 EMIB 連接晶片（英特爾，製程不明，可能是 Intel 7）。
2 個 Xe Link I/O 晶片（台積電 N7）。
8 個 HBM2e 晶片（來自 DRAM 廠，製程不明）。
另外記入 16 個散熱晶粒（Thermal Die），就是總面積 3,100mm² 的 63 顆晶片。
英特爾也順勢宣布適用 Ponte Vecchio 的新型 8 路 OAM 模組通用基板（x8 UBB），類似 Nvidia HGX 與 AMD Infinity Architecture Platform。

▲ 英特爾首款 Data Center GPU Max「Ponte Vecchio」一口氣「包」了 7 種功能的 63 顆晶片，堪稱多晶片封裝技術的巔峰造極之作。

平心而論，這是非常了不起的技術成就。英特爾今年國際超級電腦大會（ISC High Performance Supercomputing Conference）表示 Data Center GPU Max 1550「多樣化」工作負載，比 Nvidia H100 PCIe 版平均高 30%，工程模擬軟體廠商 Ansys 則分別在推論和訓練，讓 Data Center GPU Max 1550 比 H100 PCIe 版快 90% 與 80%。英特爾和客戶一起在 Ponte Vecchio 經歷漫長疲憊的開發週期，因此的確很有動機 ISC 2023 時慶祝得來不易的成果。

英特爾本業 CPU「總算」推出內建 64GB HBM2 記憶體的第四代 Xeon-SP 處理器，刻意突顯記憶體頻寬的壓倒性優勢，也不忘「提醒」大家「Performance Beyond Core Count」（凌駕核心數的效能），或多或少「抵銷」帳面 CPU 核心數長期落後 AMD，大致如下：

至於「人工智慧專用加速器」，英特爾 2019 年以 20 億美元併購以色列新創公司 Habana Labs，取得訓練專用的 Gaudi2 晶片，電腦視覺模型 ResNet-50 與自然語言處理模型 BERT，經過調校後訓練吞吐量可達 Nvidia A100 80GB 記憶體版 2.4 倍，且內建 24 埠支援 RoCE（RDMA over Converged Ethernet）100GbE，易於透過標準化乙太網路達到水平式擴充（Scale-Out），避免像 Infiniband、NVLink 或 Omni-Path 等專屬規格互連技術，並省略額外 PCIe 交換器和乙太網路控制器，直接整合運算和網路，也是 Habana Labs 產品的最重要特色。純論訓練性能，Gaudi2 實際可能比不上 Nvidia H100，但「據說」成本遠低於其一半。

▲ 英特爾砸 20 億美元買下 Habana Labs，看來錢沒有白花，反觀花 4 億美元的 Nervana。

行文至此，筆者突然想起，月初業界出現小道消息：英特爾正在替某些「目標客戶」打造超過 1 千個節點的 Gaudi2 超級叢集（Super Cluster），並納入 Intel Developer Cloud 服務。假設每個節點有 8 個 OAM 模組，將有 8 千多個 AI 加速器。根據傳聞，加速器的目標總量可能會超過 1 萬個。

英特爾會在這時候做這件事，原因不外乎 Nvidia GPU 炙手可熱，但 Nvidia 與台積電先前卻錯估市場的 GPU 需求，產能嚴重不足，訂單滿到年底，導致 H100 下單後交期約 42 週，據聞 A100 也相去不遠，假如客戶尚未下單 Nvidia，但又想今年建置 AI 叢集，英特爾就有機會獲得這些潛在商機，並累積客戶應用案例，軟體開發環境拉近跟 Nvidia 的差距。

▲ Habana Labs 的 Gaudi 系列人工智慧訓練加速器，最明顯技術優勢在整合乙太網路控制器，用較低成本滿足橫向擴展（Scale-Out）需求。Nvidia H100 / A100 缺貨，就成為英特爾的大好機會。

但以上種種好消息也無法掩蓋英特爾眼前的窘境，命途多舛、經歷多次延宕（遠不只維基百科寫的「兩次」）、號稱人類史上第一台 2Exaflops 的「Aurora」（極光）超級電腦，更是英特爾宣示高效能運算與人工智慧，從此站穩腳跟的代表，堪稱坎苛之路的縮影。先放棄超級多核心 x86 的 Xeon Phi，從 AMD 挖角一堆人砍掉重練通用運算型 GPU 而曠日費時，又碰到多災多難的第四代 Xeon-SP 處理器「Sapphire Rapids」。

「Sapphire Rapids」原定 2021 年底發貨，隨後延後到 2022 年初，後來又將量產時間延後到 2022 年中期。但到了 2022 年夏天，傳出還有「高達 500 個錯誤」要修正，累積超過 12 版樣品，打破英特爾自己的紀錄，最後到今年第一季才結束這場惡夢。原設定的 AMD EPYC 對手是 Zen 3 世代 Milan，結果升級到 Zen 4 世代 Genoa，被迫越級打怪。

▲ 第四代 Xeon-SP 處理器「Sapphire Rapids」幾乎延後快兩年，連帶拖累內建 64GB HBM2e 的 Xeon Max 處理器，與打造 Aurora 超級電腦的進度。

英特爾 GPU 戰線也面臨逆境，取消一年半內發表多款伺服器 GPU 產品的計畫，包括人工智慧與高效能計算（Data Center GPU Max）「Rialto Bridge」和雲端遊戲與媒體編碼（Data Center GPU Flex）「Lancaster Sound」。寄予厚望的「XPU」（CPU 結合 GPU）首發「Falcon Shores」，與 Lancaster Sound 的後繼者「Melville Sound」更延期至 2025 年。換言之，英特爾等於變相宣布伺服器 GPU 領域落後 AMD 和 Nvidia 整整三年。更讓人驚訝的是，連 XPU 也都不 XPU 了，「Falcon Shores」從「2024 年 XPU」變成「2025 年的 GPU」。

面對如此巨大策略轉折，英特爾官方說法是「我們並沒有放棄 XPU 的想法，但有鑑於時下人工智慧應用仍蓬勃發展，難掌握 CPU 與 GPU 的最佳比例（以 Aurora 來說是 1:3，Frontier 是 1:4），以符合現實工作負載，也更難銷售」，所以英特爾放棄整合計畫，維持 CPU、GPU 分而治之，將混合 CPU / GPU 加速器市場全部讓給 AMD 與 Nvidia。但話說回來，英特爾之所以先進晶片封裝投入這麼多心力，難道不就是要「提升規格彈性，快速應付市場需求」嗎？筆者眼中這完全是說不過去的藉口。

▲ 英特爾覺得「實際應用工作負載模式尚未成熟穩定前，不適合這麼快整合 CPU 和 GPU」，所以繼續 CPU 和 GPU 分而治之，將混合兩者的機會拱手讓給 AMD 和 Nvidia。

日前外界謠傳英特爾賠錢做這個案子，像是「總價 3 億美元的晶片只能貼 1 億美元價碼」等鄉野奇聞。總之，Aurora 超級電腦即將建造完畢，各位就請就看看這道睽違已久的「極光」，能否讓英特爾的人工智慧之路否極泰來。

▲ 還是那句話：oneAPI 將決定英特爾能否具備與 Nvidia 正面競爭的條件。

其實英特爾的資料中心、超級電腦和人工智慧，產品組合依舊還有個明顯缺口，未來可能會極度致命，這主題留待本文最後一段說分明。

Nvidia：日正當中，地位難撼動

▲ Nvidia 只要有 CUDA 的保護傘就能夠……（以下省略數萬字）

基本上，只要無法突破 Nvidia 自 2006 年就逐步建立的 CUDA（Compute Unified Device Architecture，統一計算架構）軟體生態系統，從遊戲、高效能運算、自駕車到人工智慧等任何需要 GPU 通用運算的領域，Nvidia「霸業」就無從撼動，即使 PyTorch 2.0 深度學習框架的普及和 OpenAI Triton 開源 GPU 程式語言的問世，便於開發者更容易正確利用各種硬體資源，讓在 Nvidia GPU 上運行模型的軟體，更有機會輕鬆無縫轉移到其他硬體。

但看在「400 萬開發者，3 千個以上加速應用程式，2022 年 4 千萬以上 CUDA 下載次數、1.5 萬家以上新創公司、4 萬家企業」份上，筆者回想起十幾年前，某次日本旅行，路過工學院大學的東京新宿校區，親眼目睹大門擺著 Nvidia 正在進行 CUDA 教育訓練課程的告示牌，諸如此類的親身體驗，往事歷歷在目，實在想像不到足以說服筆者，nVidia 的既有優勢會被快速顛覆的任何可能性，如果有人敢這樣打包票「Nvidia 的霸業將被 XXX 輕易挑戰」，筆者敢說他的鼻子一定會變長。

回過頭來，Nvidia 的 COMPUTEX 2023 主題演講，把 Grace Hopper（GH200）講得很像「超級晶片」，像 32 個 pod 運算叢集（256 顆 GH200）組成的 DGX GH200 系統，可提供高達 1Exaflops 的 AI 運算效能（逼近「AMD Inside」的 Frontier）和 144TB 的 GPU 記憶體空間等等，看起來「灰熊厲害」，但回到本文開頭規格比較表，仔細瞧瞧晶片本身，與英特爾 AMD 競品比一比，也就沒那麼了不起了。但筆者自身觀點，Nvidia 真正強大之處在於開創性「商業模式」：銷售整台系統，與野心勃勃的 AI 雲端戰略。

過去繪圖晶片廠商「自己做晶片也做卡」根本是球員兼裁判，犯了得罪所有客戶（主要是獨立板卡廠商，AIB, Add-In graphics Board）大忌，但 AI 時代這亟需高算力的浪頭，客戶幾乎沒有 Nvidia 以外的選擇，與其賣晶片給 AIB，還不如直接做整張加速卡，售價動輒 1 萬至 2 萬美元（H100 / A100 在中國黑市起碼可賣到兩倍價），更遑論賣出整台塞滿加速卡的 DGX 系統，賺得才多，消費性產品市場反而不能這樣玩，當年 3dfx 就蓄意併購 STB 這 Nvidia 最大客戶而加速衰亡。

▲ 賣晶片賺不夠，賣運算卡也不夠多，那就賣整台 1Exaflops 效能的超級電腦 DGX GH200，甚至做起「AI 雲端服務」，才更能將生成式 AI 的算力，盡其所能收入囊中。

從這角度看，替 Nvidia 代工的台積電，到頭來能分到多少檯面上 Nvidia 營收金額，筆者抱持存疑態度（更不用講那票巴著 Nvidia、搶著跟黃仁勳合照的眾多系統廠），畢竟一顆大晶片含封裝測試，頂多也賣個幾百美元，Nvidia 賺到的利潤，極可能豐厚到讓人難以想像。呃，扯這麼遠，筆者還是多花點時間研究他們家財報好了。

或許對台積電而言，Nvidia 讓他們「賺」最大的，莫過於運算微影導入與 Nvidia、ASML和 Synopsys 合作的 cuLitho 運算微影函式庫，能縮短先進製程晶片的光罩時程（兩週變成 8 小時）、拉升良率，並可大幅降低晶圓製造的能耗（35 兆瓦大幅降低至 5 兆瓦）。台積電僅需使用 500 台 Nvidia DGX H100 伺服器（等於 4 千顆 H100），就足以做到相當於 4 萬台 CPU 伺服器的運算工作量，也難怪台積電執行長魏哲家幽默感嘆「賣 600（美元），要花 20 萬（美元）買回來」。

販賣「完整解決方案」硬體以外，Nvidia 企圖一網打盡生成式 AI 浪潮的後續算力，將 DGX 超級電腦放上雲端，讓「每間公司只要透過網路瀏覽器，月付 3.7 萬美元，就能享受 DGX 超級電腦」，並與各大雲端服務商合作託管 DGX Cloud（首波是 Oracle、微軟和 Google），也推出 AI Foundation 等多樣化企業級生成式 AI 人工智慧運作雲端服務，含文字（NeMo）、視覺內容（Picasso）和生物學（BioNeMo），對新創企業應有一定程度誘因。

▲ Nvidia 不只賣晶片、加速卡、超級電腦，還有一套看似完整的雲端 AI 戰略。

當然，Nvidia 的 AI 雲端戰略，勢必有與雲端服務商客戶競爭的可能性，雲端巨頭也會持之以恆嘗試自行開發晶片，降低依賴 Nvidia。「現在」因雲端服務營收持續下滑，逼迫大家追求生成式 AI 商機，管不了這麼多是一回事，假以時日，很可能給 Nvidia（及英特爾 AMD）不小考驗，但現在唯一可確定的是，先不提檯面上晶片硬體規格，無論市占率、客戶基本盤、軟體生態系統還是商業模式，x86 雙雄還是看不到 Nvidia 車尾燈，皮衣教主應該還可以頂著「AI 教父」光環，獨領風騷好一陣子。

AMD：直起直追，但挑戰重重

▲ MI300 系列可謂 AMD EHP（Exascale Heterogenous Processor）相關技術集大成，也是 AMD 併購 ATi 後擘畫的「終極型態 APU」與「超級頂規 GPU」，但應該沒多少人想得起 EHP 這名詞了。

真要論「超級晶片」和硬體規模的暴力程度，說 AMD Instinct MI300 系列是第二，也沒人敢說是第一，就筆者記憶所及，這恐怕是 AMD 首次推出規格面同時輾壓英特爾和 Nvidia 的產品，但在「當代最強晶片」風光降臨的背後，卻是 AMD 多年不曾間斷的努力。

2015 年 AMD 財務分析師大會，AMD 透露計畫推出為了高效能運算而生的 APU，當年 7 月 IEEE Micro 發表〈Achieving Exascale Capabilities through Heterogeneous Computing〉（藉異質運算實現百億億級運算）一文。因此 AMD 頂規 APU 就正名為 EHP（Exascale Heterogenous Processor），之後也陸續申請許多相關專利，甚至還可追溯至 2010 年，以下很可能只是冰山一角，但筆者也沒有繼續挖下去的動力了。

▲ AMD 早在 2015 年發表的文章，鉅細靡遺描述 EHP 全貌，MI300 系列是 EHP 的第一個成果，而 AMD 尚有眾多未竟之志。

MI300 看起來很威武，但軟體開發環境依然是 AMD 的罩門，別的不說，筆者隨便舉幾個跟 AMD / ATi GPU 通用開發環境相關的里程碑，請問各位聽過幾個？知道 ROCm（Radeon Open Compute Ecosystem）的絕對不多，但筆者很肯定絕大多數人都很清楚知道什麼是 CUDA。

2006 年 11 月：Close-To-Metal（CTM），ATi 時代的產物。
2007 年 12 月：Stream（CAL＋Brook+，轉向 OpenCL）。
2015 年 12 月：GPUOpen（競爭者：Nvidia GameWorks）。
2016 年 11 月：ROCm（競爭者：Nvidia CUDA 與英特爾 oneAPI）。
2018 年 8 月：AMD 宣布推出適用 ROCm 的 TensorFlow v1.8 介面。
2021 年 3 月：PyTorch 1.8 正式支援 ROCm，對應 ROCm 的 PyTorch 成為 Python Package。
2021 年 7 月：ONNX 1.8.1 開始支援 ROCm。
2022 年 3 月：微軟 PyTorch 深度學習函式庫 DeepSpeed 開始支援 ROCm。
2023 年 4 月：ROCm 即將登陸 Windows 作業系統，並支援 RDNA 體系消費級顯示卡（筆者期待哪天連內顯都雨露均霑）。

假若統統都認得，恭喜你，筆者也沒什麼獎品可送。言歸正傳，AMD 宣稱「GPU 運算功能最多元開源平台」的 ROCm（以及英特爾「為多元異構趨勢提供一套跨平台、跨架構的工具包」的 oneAPI）要追上 Nvidia CUDA，沒耗個數年光陰是辦不到的，況且這還需要一點好運才行。

▲ 也許筆者可找好友下注：是 AMD ROCm 還是英特爾 oneAPI 先看到 Nvidia CUDA 的車尾燈。

不過 AMD 也非缺乏天時、地利和人和，想當年 AMD 最艱苦的歲月（2010~2016 年），全世界電子科技大廠，從雲端服務業者到消費性電子品牌，基於商業考量，無不希望 AMD 順利活下來，不想眼睜睜看著英特爾一家獨大壟斷市場，日後失去討價還價的籌碼，有志一同「塞案子」給 AMD（這是 AMD 能拿下這麼多家用遊戲主機訂單的關鍵因素和時代背景）。同理可證，沒人想看到 Nvidia 在人工智慧世界獨霸，自然也就產生 AMD（和英特爾）的生存空間，也許很快就會看見「非 Nvidia」兼具「ChatGPT 等級」的大型客戶導入案例。

網路架構對人工智慧也很重要，開始兵家必爭

前面稍微提到英特爾砸了 20 億美元 Habana Labs，Gaudi 系列深度學習加速器，技術特長在整合乙太網路控制器，利於建構大型 AI 叢集，足以顯示「網路平台」對人工智慧的重要性。

▲ 人工智慧需要的不只「算力」，尋求最適合的網路架構也是重點。

無獨有偶，網通晶片的老大博通（Broadcom），4 月發表三大高階乙太網路交換機產品線（超大規模資料中心骨幹的 Tomahawk、企業網路的 Trident、服務提供者的 Jericho）的 Jericho3-AI，不僅很隨波逐流產品名稱加上「AI」，更暗示以 Nvidia（Mellanox）為首的 Infiniband 陣營並不適合人工智慧。

▲ 博通三大高階網路交換器晶片產品線各有千秋，比較表即可看出企業（Trident）、服務提供者（Jericho）和超大型資料中心（Tomahawk）需求截然不同。高階網路交換器晶片、路由器晶片和網路處理器，是很值得深入探討的有趣主題，值得筆者以後帶領各位一同探險。

以博通 Jericho3-AI 產品設計訴求為例，目的在「縮減 AI 訓練時連網時間」，保持網路不會擁塞的負載平衡與連結調度、零影響故障轉移，以及充分滿足大量連接埠的大型交換／路由表（講抽象點，就是讓整個網路拓樸「平面化」）。

▲ 博通 Jericho3-AI 乙太網路交換器的簡報以「32,000 個、個別連接 800Gbps 網路的 AI 加速器」環境為例，各位也可以想見那是多麼巨大的規模。

今年 COMPUTEX 黃仁勳就發表「全球第一個人工智慧乙太網路平台」Spectrum-X，緊密結合 Spectrum-4 乙太網路交換器和 BlueField-3 資料處理器（DPU），可「為人工智慧、機器學習和自然語言處理以及多元的產業應用程式提供最高的效能」。可知軟體定義網路（SDN）和網路功能虛擬化（NFV）讓高度可程式化的網路晶片，包括網路交換器和智慧網路卡（SmartNIC），成為兵家必爭之地，尤其連結大量運算晶片或加速器的大型人工智慧訓練平台。

▲ 或許我們很快就可知道為何 Mellanox 值得 Nvidia 願意掏出 70 億美元。除了 FPGA，Nvidia 幾乎什麼都有了。

AMD 也在 2022 年 4 月，以 19 億美元併購有濃厚 Cisco 色彩的 Pensado，得到自家 SmartNIC（DPU）。VMware 2020 年啟動「Project Monterey」，可讓 ESXi 在 SmartNIC 運行，官方產品相容性清單，也就剛剛好列上「御三家」。

▲ 馬力夠大，路也要夠寬，完整的資料中心，並不是只有「運算」就夠了，「網路」也同樣重要，「軟體」亦舉足輕重，更別忘了「商業模式」。

這樣問題就來了，英特爾、Nvidia 和 AMD 的「整體解決方案」孰分優劣？然後為何之前某些產業分析師，評論英特爾「產品組合缺乏足夠吸引力」？以前筆者會不時聽聞 AMD 試圖購入網路交換器晶片小廠的傳言，就來好好整理一番，筆者先不做結論，各位也可從下表為起點，好好思索三家公司的競爭力，搞不好會從內心產生嶄新的觀點也說不定。

（首圖來源：shutterstock）

請更新您的瀏覽器

科技

科技新報

英特爾：出師不利，毫無存在感

Nvidia：日正當中，地位難撼動

AMD：直起直追，但挑戰重重

網路架構對人工智慧也很重要，開始兵家必爭

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！