拜微軟耗資數億美元替 OpenAI 建造 ChatGPT 的超級電腦、使用數萬顆 Nvidia 高階運算專用 GPU 所賜,今年台北國際電腦展(COMPUTEX 2023),除了重現久違多年的參觀人潮和國外訪客,一年一度大拜拜竟變成 Nvidia 創辦人黃仁勳的個人秀,許多後知後覺媒體拚命把他包裝成「AI 教父」,彷彿我們今日認知的 GPU,經歷 20 多年發展,今天才赫然發現有 Nvidia 這間公司和這號人物,讓人不禁莞爾。
接著沒過多久,AMD 發表兩款 MI300 晶片,又跑出「AMD 執行長蘇姿丰(Lisa Su)想從黃仁勳手上奪下 AI 王冠」之類惟恐天下不亂新聞標題。很諷刺的是, MI300 剛登場,AMD 股價「逆勢」下跌 3.6%,Nvidia 卻上漲 4%,當天市值首度站上「兆美元」大關,起因也不外乎「明年才能創造營收」、「尚無客戶確定採購」和「軟體生態落後太多」之類的理由,讓人呵欠連連。
但這還不是最慘。當媒體將焦點對準 Nvidia 和 AMD 頂上決戰,更早去年底就發表 Xeon Max(代號 Sapphire Rapids HBM)和 Data Center GPU Max(代號 Ponte Vecchio)產品線系列的英特爾,彷彿一點存在感都沒有。
多數媒體拚命炒作啥「XXX 概念股」時,更沒人關心「御三家」(英特爾、Nvidia、AMD)產品的優勝劣敗,Nvidia 宣傳的「超級晶片」(Superchip)相較其他兩家,究竟有沒有如字面的「超級」,好像也不重要了,黃仁勳在台期間跑了幾個夜市、COMPUTEX 結束後到底會不會飛往中國,似乎還更吸引眾人目光。
既然如此,筆者就趁機好好談談「現在」狀況,雖然認真的讀者一定早從下面規格比較表看出不少端倪,所謂「魔鬼藏在細節裡」大概就是這麼回事。
英特爾:出師不利,毫無存在感
▲ 因公司策略一再轉折錯失人工智慧商機的英特爾,一直努力直起直追,且頗有成果,但似乎少人關注,搞不好多數人都不知道英特爾首款專業運算 GPU 正式名稱是什麼,所以這次英特爾篇幅會特別長。
當「高效能運算」與「人工智慧」開始聚合,英特爾一直默默鴨子划水,但也遲遲等不到眾人關愛的眼神,鋒頭都被「皮衣教主」和「半導體女王」公司搶走了。
藉 EMIB 2.5D 封裝與 Foveros 3D 封裝等諸多先進「包水餃」技術,英特爾在正名為「Data Center GPU Max」的高階運算專用 GPU「Ponte Vecchio」,一口氣結合 47 個功能晶片,超過 1,000 億電晶體,總面積多達 2,330mm²:
16 個 Xe-HPC 架構的計算晶片(台積電 N5)。
8 個 RAMBO Cache 晶片(英特爾 Intel 7)。
2 個 Xe 機板晶片(英特爾 Intel 7)。
11 個 EMIB 連接晶片(英特爾,製程不明,可能是 Intel 7)。
2 個 Xe Link I/O 晶片(台積電 N7)。
8 個 HBM2e 晶片(來自 DRAM 廠,製程不明)。
另外記入 16 個散熱晶粒(Thermal Die),就是總面積 3,100mm² 的 63 顆晶片。
英特爾也順勢宣布適用 Ponte Vecchio 的新型 8 路 OAM 模組通用基板(x8 UBB),類似 Nvidia HGX 與 AMD Infinity Architecture Platform。
▲ 英特爾首款 Data Center GPU Max「Ponte Vecchio」一口氣「包」了 7 種功能的 63 顆晶片,堪稱多晶片封裝技術的巔峰造極之作。
平心而論,這是非常了不起的技術成就。英特爾今年國際超級電腦大會(ISC High Performance Supercomputing Conference)表示 Data Center GPU Max 1550「多樣化」工作負載,比 Nvidia H100 PCIe 版平均高 30%,工程模擬軟體廠商 Ansys 則分別在推論和訓練,讓 Data Center GPU Max 1550 比 H100 PCIe 版快 90% 與 80%。英特爾和客戶一起在 Ponte Vecchio 經歷漫長疲憊的開發週期,因此的確很有動機 ISC 2023 時慶祝得來不易的成果。
英特爾本業 CPU「總算」推出內建 64GB HBM2 記憶體的第四代 Xeon-SP 處理器,刻意突顯記憶體頻寬的壓倒性優勢,也不忘「提醒」大家「Performance Beyond Core Count」(凌駕核心數的效能),或多或少「抵銷」帳面 CPU 核心數長期落後 AMD,大致如下:
至於「人工智慧專用加速器」,英特爾 2019 年以 20 億美元併購以色列新創公司 Habana Labs,取得訓練專用的 Gaudi2 晶片,電腦視覺模型 ResNet-50 與自然語言處理模型 BERT,經過調校後訓練吞吐量可達 Nvidia A100 80GB 記憶體版 2.4 倍,且內建 24 埠支援 RoCE(RDMA over Converged Ethernet)100GbE,易於透過標準化乙太網路達到水平式擴充(Scale-Out),避免像 Infiniband、NVLink 或 Omni-Path 等專屬規格互連技術,並省略額外 PCIe 交換器和乙太網路控制器,直接整合運算和網路,也是 Habana Labs 產品的最重要特色。純論訓練性能,Gaudi2 實際可能比不上 Nvidia H100,但「據說」成本遠低於其一半。
▲ 英特爾砸 20 億美元買下 Habana Labs,看來錢沒有白花,反觀花 4 億美元的 Nervana。
行文至此,筆者突然想起,月初業界出現小道消息:英特爾正在替某些「目標客戶」打造超過 1 千個節點的 Gaudi2 超級叢集(Super Cluster),並納入 Intel Developer Cloud 服務。假設每個節點有 8 個 OAM 模組,將有 8 千多個 AI 加速器。根據傳聞,加速器的目標總量可能會超過 1 萬個。
英特爾會在這時候做這件事,原因不外乎 Nvidia GPU 炙手可熱,但 Nvidia 與台積電先前卻錯估市場的 GPU 需求,產能嚴重不足,訂單滿到年底,導致 H100 下單後交期約 42 週,據聞 A100 也相去不遠,假如客戶尚未下單 Nvidia,但又想今年建置 AI 叢集,英特爾就有機會獲得這些潛在商機,並累積客戶應用案例,軟體開發環境拉近跟 Nvidia 的差距。
▲ Habana Labs 的 Gaudi 系列人工智慧訓練加速器,最明顯技術優勢在整合乙太網路控制器,用較低成本滿足橫向擴展(Scale-Out)需求。Nvidia H100 / A100 缺貨,就成為英特爾的大好機會。
但以上種種好消息也無法掩蓋英特爾眼前的窘境,命途多舛、經歷多次延宕(遠不只維基百科寫的「兩次」)、號稱人類史上第一台 2Exaflops 的「Aurora」(極光)超級電腦,更是英特爾宣示高效能運算與人工智慧,從此站穩腳跟的代表,堪稱坎苛之路的縮影。先放棄超級多核心 x86 的 Xeon Phi,從 AMD 挖角一堆人砍掉重練通用運算型 GPU 而曠日費時,又碰到多災多難的第四代 Xeon-SP 處理器「Sapphire Rapids」。
「Sapphire Rapids」原定 2021 年底發貨,隨後延後到 2022 年初,後來又將量產時間延後到 2022 年中期。但到了 2022 年夏天,傳出還有「高達 500 個錯誤」要修正,累積超過 12 版樣品,打破英特爾自己的紀錄,最後到今年第一季才結束這場惡夢。原設定的 AMD EPYC 對手是 Zen 3 世代 Milan,結果升級到 Zen 4 世代 Genoa,被迫越級打怪。
▲ 第四代 Xeon-SP 處理器「Sapphire Rapids」幾乎延後快兩年,連帶拖累內建 64GB HBM2e 的 Xeon Max 處理器,與打造 Aurora 超級電腦的進度。
英特爾 GPU 戰線也面臨逆境,取消一年半內發表多款伺服器 GPU 產品的計畫,包括人工智慧與高效能計算(Data Center GPU Max)「Rialto Bridge」和雲端遊戲與媒體編碼(Data Center GPU Flex)「Lancaster Sound」。寄予厚望的「XPU」(CPU 結合 GPU)首發「Falcon Shores」,與 Lancaster Sound 的後繼者「Melville Sound」更延期至 2025 年。換言之,英特爾等於變相宣布伺服器 GPU 領域落後 AMD 和 Nvidia 整整三年。更讓人驚訝的是,連 XPU 也都不 XPU 了,「Falcon Shores」從「2024 年 XPU」變成「2025 年的 GPU」。
面對如此巨大策略轉折,英特爾官方說法是「我們並沒有放棄 XPU 的想法,但有鑑於時下人工智慧應用仍蓬勃發展,難掌握 CPU 與 GPU 的最佳比例(以 Aurora 來說是 1:3,Frontier 是 1:4),以符合現實工作負載,也更難銷售」,所以英特爾放棄整合計畫,維持 CPU、GPU 分而治之,將混合 CPU / GPU 加速器市場全部讓給 AMD 與 Nvidia。但話說回來,英特爾之所以先進晶片封裝投入這麼多心力,難道不就是要「提升規格彈性,快速應付市場需求」嗎?筆者眼中這完全是說不過去的藉口。
▲ 英特爾覺得「實際應用工作負載模式尚未成熟穩定前,不適合這麼快整合 CPU 和 GPU」,所以繼續 CPU 和 GPU 分而治之,將混合兩者的機會拱手讓給 AMD 和 Nvidia。
日前外界謠傳英特爾賠錢做這個案子,像是「總價 3 億美元的晶片只能貼 1 億美元價碼」等鄉野奇聞。總之,Aurora 超級電腦即將建造完畢,各位就請就看看這道睽違已久的「極光」,能否讓英特爾的人工智慧之路否極泰來。
▲ 還是那句話:oneAPI 將決定英特爾能否具備與 Nvidia 正面競爭的條件。
其實英特爾的資料中心、超級電腦和人工智慧,產品組合依舊還有個明顯缺口,未來可能會極度致命,這主題留待本文最後一段說分明。
Nvidia:日正當中,地位難撼動
▲ Nvidia 只要有 CUDA 的保護傘就能夠……(以下省略數萬字)
基本上,只要無法突破 Nvidia 自 2006 年就逐步建立的 CUDA(Compute Unified Device Architecture,統一計算架構)軟體生態系統,從遊戲、高效能運算、自駕車到人工智慧等任何需要 GPU 通用運算的領域,Nvidia「霸業」就無從撼動,即使 PyTorch 2.0 深度學習框架的普及和 OpenAI Triton 開源 GPU 程式語言的問世,便於開發者更容易正確利用各種硬體資源,讓在 Nvidia GPU 上運行模型的軟體,更有機會輕鬆無縫轉移到其他硬體。
但看在「400 萬開發者,3 千個以上加速應用程式,2022 年 4 千萬以上 CUDA 下載次數、1.5 萬家以上新創公司、4 萬家企業」份上,筆者回想起十幾年前,某次日本旅行,路過工學院大學的東京新宿校區,親眼目睹大門擺著 Nvidia 正在進行 CUDA 教育訓練課程的告示牌,諸如此類的親身體驗,往事歷歷在目,實在想像不到足以說服筆者,nVidia 的既有優勢會被快速顛覆的任何可能性,如果有人敢這樣打包票「Nvidia 的霸業將被 XXX 輕易挑戰」,筆者敢說他的鼻子一定會變長。
回過頭來,Nvidia 的 COMPUTEX 2023 主題演講,把 Grace Hopper(GH200)講得很像「超級晶片」,像 32 個 pod 運算叢集(256 顆 GH200)組成的 DGX GH200 系統,可提供高達 1Exaflops 的 AI 運算效能(逼近「AMD Inside」的 Frontier)和 144TB 的 GPU 記憶體空間等等,看起來「灰熊厲害」,但回到本文開頭規格比較表,仔細瞧瞧晶片本身,與英特爾 AMD 競品比一比,也就沒那麼了不起了。但筆者自身觀點,Nvidia 真正強大之處在於開創性「商業模式」:銷售整台系統,與野心勃勃的 AI 雲端戰略。
過去繪圖晶片廠商「自己做晶片也做卡」根本是球員兼裁判,犯了得罪所有客戶(主要是獨立板卡廠商,AIB, Add-In graphics Board)大忌,但 AI 時代這亟需高算力的浪頭,客戶幾乎沒有 Nvidia 以外的選擇,與其賣晶片給 AIB,還不如直接做整張加速卡,售價動輒 1 萬至 2 萬美元(H100 / A100 在中國黑市起碼可賣到兩倍價),更遑論賣出整台塞滿加速卡的 DGX 系統,賺得才多,消費性產品市場反而不能這樣玩,當年 3dfx 就蓄意併購 STB 這 Nvidia 最大客戶而加速衰亡。
▲ 賣晶片賺不夠,賣運算卡也不夠多,那就賣整台 1Exaflops 效能的超級電腦 DGX GH200,甚至做起「AI 雲端服務」,才更能將生成式 AI 的算力,盡其所能收入囊中。
從這角度看,替 Nvidia 代工的台積電,到頭來能分到多少檯面上 Nvidia 營收金額,筆者抱持存疑態度(更不用講那票巴著 Nvidia、搶著跟黃仁勳合照的眾多系統廠),畢竟一顆大晶片含封裝測試,頂多也賣個幾百美元,Nvidia 賺到的利潤,極可能豐厚到讓人難以想像。呃,扯這麼遠,筆者還是多花點時間研究他們家財報好了。
或許對台積電而言,Nvidia 讓他們「賺」最大的,莫過於運算微影導入與 Nvidia、ASML和 Synopsys 合作的 cuLitho 運算微影函式庫,能縮短先進製程晶片的光罩時程(兩週變成 8 小時)、拉升良率,並可大幅降低晶圓製造的能耗(35 兆瓦大幅降低至 5 兆瓦)。台積電僅需使用 500 台 Nvidia DGX H100 伺服器(等於 4 千顆 H100),就足以做到相當於 4 萬台 CPU 伺服器的運算工作量,也難怪台積電執行長魏哲家幽默感嘆「賣 600(美元),要花 20 萬(美元)買回來」。
販賣「完整解決方案」硬體以外,Nvidia 企圖一網打盡生成式 AI 浪潮的後續算力,將 DGX 超級電腦放上雲端,讓「每間公司只要透過網路瀏覽器,月付 3.7 萬美元,就能享受 DGX 超級電腦」,並與各大雲端服務商合作託管 DGX Cloud(首波是 Oracle、微軟和 Google),也推出 AI Foundation 等多樣化企業級生成式 AI 人工智慧運作雲端服務,含文字(NeMo)、視覺內容(Picasso)和生物學(BioNeMo),對新創企業應有一定程度誘因。
▲ Nvidia 不只賣晶片、加速卡、超級電腦,還有一套看似完整的雲端 AI 戰略。
當然,Nvidia 的 AI 雲端戰略,勢必有與雲端服務商客戶競爭的可能性,雲端巨頭也會持之以恆嘗試自行開發晶片,降低依賴 Nvidia。「現在」因雲端服務營收持續下滑,逼迫大家追求生成式 AI 商機,管不了這麼多是一回事,假以時日,很可能給 Nvidia(及英特爾 AMD)不小考驗,但現在唯一可確定的是,先不提檯面上晶片硬體規格,無論市占率、客戶基本盤、軟體生態系統還是商業模式,x86 雙雄還是看不到 Nvidia 車尾燈,皮衣教主應該還可以頂著「AI 教父」光環,獨領風騷好一陣子。
AMD:直起直追,但挑戰重重
▲ MI300 系列可謂 AMD EHP(Exascale Heterogenous Processor)相關技術集大成,也是 AMD 併購 ATi 後擘畫的「終極型態 APU」與「超級頂規 GPU」,但應該沒多少人想得起 EHP 這名詞了。
真要論「超級晶片」和硬體規模的暴力程度,說 AMD Instinct MI300 系列是第二,也沒人敢說是第一,就筆者記憶所及,這恐怕是 AMD 首次推出規格面同時輾壓英特爾和 Nvidia 的產品,但在「當代最強晶片」風光降臨的背後,卻是 AMD 多年不曾間斷的努力。
2015 年 AMD 財務分析師大會,AMD 透露計畫推出為了高效能運算而生的 APU,當年 7 月 IEEE Micro 發表〈Achieving Exascale Capabilities through Heterogeneous Computing〉(藉異質運算實現百億億級運算)一文。因此 AMD 頂規 APU 就正名為 EHP(Exascale Heterogenous Processor),之後也陸續申請許多相關專利,甚至還可追溯至 2010 年,以下很可能只是冰山一角,但筆者也沒有繼續挖下去的動力了。
▲ AMD 早在 2015 年發表的文章,鉅細靡遺描述 EHP 全貌,MI300 系列是 EHP 的第一個成果,而 AMD 尚有眾多未竟之志。
MI300 看起來很威武,但軟體開發環境依然是 AMD 的罩門,別的不說,筆者隨便舉幾個跟 AMD / ATi GPU 通用開發環境相關的里程碑,請問各位聽過幾個?知道 ROCm(Radeon Open Compute Ecosystem)的絕對不多,但筆者很肯定絕大多數人都很清楚知道什麼是 CUDA。
2006 年 11 月:Close-To-Metal(CTM),ATi 時代的產物。
2007 年 12 月:Stream(CAL+Brook+,轉向 OpenCL)。
2015 年 12 月:GPUOpen(競爭者:Nvidia GameWorks)。
2016 年 11 月:ROCm(競爭者:Nvidia CUDA 與英特爾 oneAPI)。
2018 年 8 月:AMD 宣布推出適用 ROCm 的 TensorFlow v1.8 介面。
2021 年 3 月:PyTorch 1.8 正式支援 ROCm,對應 ROCm 的 PyTorch 成為 Python Package。
2021 年 7 月:ONNX 1.8.1 開始支援 ROCm。
2022 年 3 月:微軟 PyTorch 深度學習函式庫 DeepSpeed 開始支援 ROCm。
2023 年 4 月:ROCm 即將登陸 Windows 作業系統,並支援 RDNA 體系消費級顯示卡(筆者期待哪天連內顯都雨露均霑)。
假若統統都認得,恭喜你,筆者也沒什麼獎品可送。言歸正傳,AMD 宣稱「GPU 運算功能最多元開源平台」的 ROCm(以及英特爾「為多元異構趨勢提供一套跨平台、跨架構的工具包」的 oneAPI)要追上 Nvidia CUDA,沒耗個數年光陰是辦不到的,況且這還需要一點好運才行。
▲ 也許筆者可找好友下注:是 AMD ROCm 還是英特爾 oneAPI 先看到 Nvidia CUDA 的車尾燈。
不過 AMD 也非缺乏天時、地利和人和,想當年 AMD 最艱苦的歲月(2010~2016 年),全世界電子科技大廠,從雲端服務業者到消費性電子品牌,基於商業考量,無不希望 AMD 順利活下來,不想眼睜睜看著英特爾一家獨大壟斷市場,日後失去討價還價的籌碼,有志一同「塞案子」給 AMD(這是 AMD 能拿下這麼多家用遊戲主機訂單的關鍵因素和時代背景)。同理可證,沒人想看到 Nvidia 在人工智慧世界獨霸,自然也就產生 AMD(和英特爾)的生存空間,也許很快就會看見「非 Nvidia」兼具「ChatGPT 等級」的大型客戶導入案例。
網路架構對人工智慧也很重要,開始兵家必爭
前面稍微提到英特爾砸了 20 億美元 Habana Labs,Gaudi 系列深度學習加速器,技術特長在整合乙太網路控制器,利於建構大型 AI 叢集,足以顯示「網路平台」對人工智慧的重要性。
▲ 人工智慧需要的不只「算力」,尋求最適合的網路架構也是重點。
無獨有偶,網通晶片的老大博通(Broadcom),4 月發表三大高階乙太網路交換機產品線(超大規模資料中心骨幹的 Tomahawk、企業網路的 Trident、服務提供者的 Jericho)的 Jericho3-AI,不僅很隨波逐流產品名稱加上「AI」,更暗示以 Nvidia(Mellanox)為首的 Infiniband 陣營並不適合人工智慧。
▲ 博通三大高階網路交換器晶片產品線各有千秋,比較表即可看出企業(Trident)、服務提供者(Jericho)和超大型資料中心(Tomahawk)需求截然不同。高階網路交換器晶片、路由器晶片和網路處理器,是很值得深入探討的有趣主題,值得筆者以後帶領各位一同探險。
以博通 Jericho3-AI 產品設計訴求為例,目的在「縮減 AI 訓練時連網時間」,保持網路不會擁塞的負載平衡與連結調度、零影響故障轉移,以及充分滿足大量連接埠的大型交換/路由表(講抽象點,就是讓整個網路拓樸「平面化」)。
▲ 博通 Jericho3-AI 乙太網路交換器的簡報以「32,000 個、個別連接 800Gbps 網路的 AI 加速器」環境為例,各位也可以想見那是多麼巨大的規模。
今年 COMPUTEX 黃仁勳就發表「全球第一個人工智慧乙太網路平台」Spectrum-X,緊密結合 Spectrum-4 乙太網路交換器和 BlueField-3 資料處理器(DPU),可「為人工智慧、機器學習和自然語言處理以及多元的產業應用程式提供最高的效能」。可知軟體定義網路(SDN)和網路功能虛擬化(NFV)讓高度可程式化的網路晶片,包括網路交換器和智慧網路卡(SmartNIC),成為兵家必爭之地,尤其連結大量運算晶片或加速器的大型人工智慧訓練平台。
▲ 或許我們很快就可知道為何 Mellanox 值得 Nvidia 願意掏出 70 億美元。除了 FPGA,Nvidia 幾乎什麼都有了。
AMD 也在 2022 年 4 月,以 19 億美元併購有濃厚 Cisco 色彩的 Pensado,得到自家 SmartNIC(DPU)。VMware 2020 年啟動「Project Monterey」,可讓 ESXi 在 SmartNIC 運行,官方產品相容性清單,也就剛剛好列上「御三家」。
▲ 馬力夠大,路也要夠寬,完整的資料中心,並不是只有「運算」就夠了,「網路」也同樣重要,「軟體」亦舉足輕重,更別忘了「商業模式」。
這樣問題就來了,英特爾、Nvidia 和 AMD 的「整體解決方案」孰分優劣?然後為何之前某些產業分析師,評論英特爾「產品組合缺乏足夠吸引力」?以前筆者會不時聽聞 AMD 試圖購入網路交換器晶片小廠的傳言,就來好好整理一番,筆者先不做結論,各位也可從下表為起點,好好思索三家公司的競爭力,搞不好會從內心產生嶄新的觀點也說不定。
(首圖來源:shutterstock)
留言 0