請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

探索 Nvidia 的多重護城河:GTC 2024 透露布局和擴大領先優勢的企圖

科技新報

更新於 04月11日18:04 • 發布於 04月12日08:30

當筆者著手此文,Nvidia 市值將近英特爾 13 倍,繼前文〈探索 Nvidia 的多重護城河:不只有 CUDA,NVLink 串連頻寬更難跨越〉,再聚焦美國時間 3 月為期三天,Nvidia 年度旗艦盛會 GTC(GPU Technology Conference)揭露的布局,以及一窺背後設法擴大領先優勢的企圖,目的不外乎「竭盡所能一口氣賺走所有利潤」。

從「皮衣教主」升級成「AI 教父」的 Nvidia 聯合創辦人兼執行長黃仁勳發表主題演講,內容有最新人工智慧 GPU、生成式 AI 微服務、元宇宙的數位孿生(Digital Twin)到時下很夯的機器人,可謂琳瑯滿目,軟硬兼備。

▲ 如果硬要筆者挑出本屆 GTC「唯一亮點」,怎麼看都是這個:兩個 GB200(兩個 Grace CPU,四個 B200 GPU)組成的 1U 計算節點托盤。

除了新世代 GPU「Blackwell」,Nvidia 也宣布從大型企業 AI 軟體開發環境 Nvidia AI Enterprise 最新版 5.0 新增數十款生成式 AI 微服務(Microservice),分為 NIM(Nvidia Inference Microservice)及 CUDA-X 兩大類,前者主要提供容器化(Container)推論微服務,便於大規模部署 AI 模型,後者著重資料處理、AI 與高效能運算各種應用。企業可在不同雲端基礎設施部署 Nvidia AI Enterprise 5.0 各種微服務,如 AWS、微軟 Azure、Google Cloud 或 Oracle Cloud Infrastructure。

▲ Nvidia NIM 是容器化推理微服務,含產業標準 API、特定應用代碼、最佳化推理引擎,便於企業雲端大規模部署 AI 模型。

此外,元宇宙環境「Omniverse」現相容蘋果 Vision Pro,黃仁勳現場介紹日產汽車(Nissan)如何用於汽車開發,且 Nvidia 人形機器人開發套件「Project GR00T」發表為機器人開發環境「Isaac Robotics Platform」擴展,再以採 Nvidia 開發板「Jetson」製作的小型機器人為演講尾聲。

但 GTC 激發的熱潮只是一時璀璨煙火,後續大布局才是蕩漾深遠的餘波。

以「更小資料」換取同樣 4 奈米製程的激增效能

毫無疑問,GTC 主題演講最受關注的就是新「Blackwell」架構 GPU:Nvidia B200 Tensor Core GPU,是「Hopper」世代 H100 Tensor Core GPU 的直接後繼產品,兩者相隔兩年,一舉拉開與 AMD MI300 和英特爾 Gaudi 3 的差距。

不斷增長的生成式 AI 需求,H100 及 HBM3e 記憶體版 H200 一直供不應求,這次 GTC 最大焦點就是後繼者是怎樣的產品,而 Going Bigger With Smaller Data(更大晶片面積,更小資料格式)是最傳神的寫照。

以台積電 2.5D 封裝 CoWoS-L 為媒介,Blackwell 將兩個巨大 GB100 晶片封裝在一起,透過理論頻寬 10TB/s 的 NVLink5 NV-HBI 界面相連並運行為單一 GPU,192GB HBM3e 記憶體(8TB/s),全規格版 B200 的「第二代 Transformer Engine」張量核心(Tensor Core)FP8 達 10P FLOPS 效能,是前代 H100 的 2.5 倍,新增 FP4 格式更倍增到 20P FLOPS。換言之,如果改用 FP4 而不是 FP8 或 INT8 執行 AI 推理,代表是 H100 五倍效能。

▲ Nvidia 的 Blackwell 沿用近似前代 Hopper 的台積電 4 奈米製程,無法塞入更多電晶體至單一晶粒下,就只能包兩顆 GB100 晶粒以提升效能。有鑑於 Nvidia 幾乎買光 SK 海力士和美光 36GB HBM3e 貨源,可預測明年會出現記憶體容量從 192GB 升級到 288GB 的版本。

連接多顆 GPU 的 NVLink 進展到第五代,總體理論頻寬加倍到 1.8TB/s,並藉新 NVLink Switch (NVLink-X800),可在 NVLink Network 擴展到 576 個 GPU,超過前代 256 兩倍多。

外部網路部分,Nvidia 也搶先發表 800Gbps 等級解決方案,如橫向擴展用「Quantum-X800」InfiniBand 平台(Quantum Q3400 交換器,ConnectX-8 SuperNIC 網路卡)和「Spectrum-X800」乙太網路平台(Spectrum SN5600 交換器,BlueField-3 SuperNIC 網路卡),可將十萬個 B200 連成單一 GPU。

InfiniBand 的 Quantum-X800 內建獨立運算單元和暫存記憶體、多個 GPU 單元計算結果聚合(All-Reduce)和更新 SHARP(Scalable Hierarchical Aggregation Reduction Protocol)協定引擎,第四版支援 FP8,可進一步強化大型模型訓練和生成式 AI 效能。

▲ 除了 GPU、計算節點和 NVSwitch,「800Gbps 等級網路解決方案」也是本次 GTC 的重頭戲,更是一張 Nvidia 用來壓制競爭對手的王牌。

類似高階伺服器 CPU 的「零停機」需求(Zero Downtime),Blackwell 配備了 RAS(可靠性、可用性和可服務性)引擎,利用基於 AI 的預防性維護機能,進行診斷和預測可靠性問題,以最大化系統正常運行時間,使其連續數週甚至數月不間斷地運行,降低營運成本。專用的資料解壓縮引擎,可做為資料解壓縮的加速器,加快資料庫查詢速度,可提高企業的生產力。

設計重點著重 AI 更勝 HPC

與 B200 同時發表的還有整合 CPU 和 GPU 的 Grace Blackwell,正式名稱是「Nvidia GB200 Superchip」,是 Grace Hopper、又稱為「Nvidia GH200 Superchip」的繼任者(反正現在 Nvidia 的各式各樣高階晶片都要掛上 Super 的封號,連網路卡都不能免俗),單一模組包括一個 Nvidia 的 Grace CPU(72 核心 Arm Neoverse V2)和兩個 B200。仍然是一個 CPU,但相較於 GH200 卻有兩個 GPU,堪稱重大的增強,即使這其中隱藏了重大的商業考量。

▲ 有別於前代GH200 Grace Hopper 是一顆 CPU 配一顆 GPU,這次 GB200 Grace Blackwell 是一顆 CPU 配兩顆 GPU(使用單向理論頻寬 450GB/s 的 NVLink-C2C 連接),其 Oberon 平台架構也刻意開放了 PCIe Gen 6 和 800Gbps 網路,但這背後卻隱含著「鼓勵客戶買 GB200,讓 Nvidia 通吃 CPU 和 GPU」的強烈意圖。

在這裡稍微解釋 Nvidia 的 HGX 和 DGX 的基本差異:前者是包含 8 個 GPU 和 NVSwitch 的基板,讓 OEM 業者可以自行定義其系統架構,後者是 Nvidia 使用 HGX 打造的自有系統品牌。

現階段 Blackwell 的規格分成三個等級,GB200 中使用的全規格 B200 的標準設計功耗(TDP)是需要水冷的 1200W,而 DGX B200 和 HGX B200 是空冷的 1000W,效能略低於全規格 B200 約 13%,像 FP64 從 45TFLOPS 降低到 40TFLOPS,TF32(張量核心)則從 2.5PFLOPS 縮減到 2.2PFLOPS。

另外,還有名為 B100 的低階型號,和前兩者皆為兩顆晶粒封裝,記憶體頻寬和容量也相同,經由調整時脈頻率和計算單元,使其匹配到跟前代 H100/H200 相當的 700W,據信這是為了讓伺服器業者可沿用先前的機構與散熱設計。Nvidia 透露「這次公布了三個等級,但將來有可能會出現其他配置」,暗示著未來有機會推出單晶粒的低功耗或高時脈版本,將導入在不同的產品線也說不定。

與 H100/H200 相比,B100 的 CUDA 核心標準浮點運算(FP64/FP32)效能較差,但張量核心的計算能力卻更勝一籌。比較 B200 和 H100/H200,像 FP64 僅增加 32%,相比從 Ampere 世代(A100)到 Hopper 世代(H100)的 3.5 倍增幅,提升幅度要小得多。很顯然的,這次 Blackwell 的設計重點是 AI 處理,而不是一般的 HPC。

難以跨入的 3 奈米「天險」

Blackwell 使用的製程節點不是過往網路上謠傳的 3 奈米,而是台積電 4NP,是用於製造 H100/H200 的台積電 4N(針對 Nvidia 特化的 5 奈米製程,可視為等同 4 奈米)改良版本,無法再巨幅縮小製程節點,以獲得相同單位面積內的更多電晶體預算,所以 Nvidia 選擇「雙餡水餃」是不得不為的選擇,沒有因製程節點的演進而帶來明顯提升單晶粒的效能,製造成本卻直接變成兩倍以上。

依據照片判斷,Blackwell 的單一晶粒面積略大於 800 平方公釐,略同於過去的 V100(815mm²)、A100(826mm²)和 H100(814mm²),從製程改進幅度(4N→4NP)與增加的電晶體數量(800 億→1040 億),「800 平方公釐出頭」似乎是其旗艦 GPU(或著台積電)的面積上限。

那問題來了,既然前面已經有蘋果帶頭繳交了台積電 3 奈米的學費,為何 Nvidia 不在 Blackwell 直奔全新的製程節點?關鍵極可能在於「節節高升的成本」跟「製程技術成熟度」。

▲ 很難想像如果沒有蘋果帶頭衝,台積電的先進製程會延後多少年。

其實回顧台積電 3 奈米的進程(N3B,即最初的 N3,於 2022 年第四季投產),並沒有外界預期的順利, 實際上時程是有被延誤的,最終導致台積電錯過重要製程節點的兩年更新週期,而且成本異常高昂,光 EUV 的光罩就約 25 層,幾乎是 5 奈米(N5)的兩倍。

也因此,蘋果被迫徹底改變其原本的計畫,3 奈米從 2022 年的 iPhone 推遲到 2023 年的 iPhone Pro,據傳許多其他台積電的客戶也紛紛放棄了原先的引進時程,堅持先止步於 N5 級製程節點(AMD、英特爾、Nvidia)或轉向改良後的 N3E(2023 年中下旬開始量產,蘋果帶頭衝第一個)。

▲ 從晶片布局來看,蘋果 M3 家族的「模組化共通性」,似乎就沒有 M1 與 M2 如此明顯,或許 3 奈米這個「天險級」門檻,讓蘋果的晶片研發團隊,沒有「優雅堆積木」的餘裕了,據傳 M3 Ultra 也將不是「連接兩顆 M3 Max」,而是完全獨立的單一晶片。

但這不會改變 3 奈米依舊非常昂貴的事實,理論上來說,N3E 相對 N5,電晶體密度提高約 56%,晶圓定價增加約 35%,每個電晶體的平均成本降低約 15%,這是 50 多年來製程技術演進中最低的縮放比例,但實際上大多數的晶片設計都不可能實現 56% 的密度提升(考慮到走線吃掉的空間),而是低得多的約 30%,這意謂更高的電晶體平均成本,與「摩爾定律的放緩」。

▲ 「微縮」、「效能」和「節能」難以兼顧,台積電的 3 奈米製程就是很好的範例。

台積電先前強調「與 5 奈米相比,N3E 在相同功耗下速度加快 18%,在相同速度下功耗降低 32%,邏輯密度提升約 60%、晶片密度提升約 30%。」其代價是蘋果 M3 系列處理器,光是流片(Tape Out)的成本就高達 10 億美元,台積電其他客戶要共襄盛舉,也是 2024 下半年的事情。Nvidia 讓 Blackwell 停留在 4 奈米,也就不足為奇。

歷史的教訓也告訴我們,往往由量大價廉、晶粒面積較小的低階產品去嘗試最先進的製程,才是最保險的做法,亟需高可靠度的伺服器級大晶片,反而更有仰仗著高單價去吸收更大晶片面積衍生成本的餘裕。

至於 Nvidia 何時會跟隨著英特爾和 AMD 的腳步,走向「異質多晶片花式封裝」,或著會不會再次重演像當年「黏在 28 奈米長達四年」的戲碼,就有待觀察,然後即便只是暫時性的,也會因應來自於 AMD MI300 的削價競爭,Blackwell 世代產品被堆高的製造成本,或多或少也會傷害到 Nvidia 的毛利,就等著瞧 AMD 能跟 Nvidia「互相傷害」到什麼程度,但可以確定的是,在很長的一段時間內,Nvidia 的壓倒性競爭優勢還是難以被動搖。

▲ 看在雲端巨頭和眾多伺服器廠商不願意被 Nvidia 一家綁死的份上,AMD 的 MI300X(純 GPU)和 MI300A(結合 CPU 和 GPU 的 APU)能夠對 Nvidia 造成多少壓力,是 2024 年值得期待的戲碼。

單一機櫃 1 exaFLOPS 的「奇蹟」

台積電總裁魏哲家在技術論壇演講時曾暗虧黃仁勳:「我賣一個 600 到 700 美元的 AI 晶片給他,但是台積電卻花 20 萬美元買回來,所以有一天我開玩笑地跟他說:『我的朋友,你真的是我的朋友嗎?』」魏哲家所說 20 萬美元買的就是 AI 伺服器,伺服器內搭載 8 個 Nvidia 的 GPU,加上軟硬體系統後,售價提高整整 40 倍。這短短一段話,道盡了 Nvidia 的超高獲利和「超過 2 兆美元市值」的根本原因。

透過使用 B200、GB200、NVLink、NVSwitch 和各種網路(InfiniBand、乙太網路)進行擴展,Nvidia 宣布了一系列各種類型的伺服器和超級電腦「系統」,單價也遠遠超過裡面的「超級晶片」。光憑這點,最起碼就追求利潤的觀點,只能賣晶片的 AMD 和英特爾,就絕無看見 Nvidia 車尾燈的任何可能性。

10U 機架的「DGX B200」將做為 8 GPU 伺服器「DGX H100」的後繼產品,具有 2 個英特爾第五代 Xeon-SP 處理器(Emerald Rapids)和 8 個 B200,可提供 144FLOPS 的 AI(FP4)效能。Nvidia 宣稱與 DGX H100 相比,1 兆參數即時大型語言模型的推理性能提高了 15 倍,訓練效能提升 3 倍。HGX B200 做為 DGX B200 的 OEM 製造商基板,也將以與 HGX H100 相同的方式上市。

DGX B200 規格概要:

  • 10U 機箱。

  • 最高功耗 14.3kW。

  • 8 個「規格較低」的 B200 GPU。

  • 2 顆 Inte l 第五代 Xeon-SP(Emerald Rapids)處理器。

  • 最高 4TB 容量 DDR5 主記憶體。

  • 2 張 1.92TB M.2 NVMe 系統碟。

  • 8 顆 3.84TB U.2 NVMe 資料碟。

  • 4 個 OSFP連接埠,提供 8 個單埠 Connect-X7 VPI。

- 最高 400Gbps InfiniBand/乙太網路。

  • 2 張 BlueField-3 SuperNIC DPU 網路卡(雙埠 QSFP112)。

- 最高 400Gbps InfiniBand/乙太網路。

但本屆 GTC 最受矚目的焦點,莫過於垂直整合的 GB200 NVL72,和前代 DGX H200(GH200 NVL32)一樣,它並不是我們所習慣的 8 GPU 伺服器,而是一個整合式機架,由 18 個計算托盤(2 個 GB200 模組)和 9 個 NVSwitch 交換器托盤(2 個 NVSwitch)所組成,總計有 36 個 Grace CPU、72 個 B200 GPU、18 個 NVSwitch、用於後端網路的 72 個 InifiniBand NIC,以及前端網路的 36 張 BlueField-3 SuperNIC 乙太網路卡。

▲ 這樣一個機架,很可能會有超過台幣一億元的報價。

GB200 NVL 採取水冷散熱機制,涵蓋 CPU、GPU、NVSwitch 和 Connect-X7 網卡,單一機櫃實現了 1.4 exaFLOPS(1440PFLOPS)的 FP4 運算性能,但最讓人感到「驚奇」的是其高度整合的水準與 NVSwitch 的驚人擴展性。

OCP 機架規格的 GB200 NVL72 規格概要:

  • 單一 OCP 機架,總計 36 個 Grace CPU 和 72 個 B200 GPU。

- 單機櫃最高耗電量約 120kW(不含液體冷卻降溫設備的開銷)。

- 總重量約 2,900 磅,超過 1.3 公噸。

- 機櫃由 6 個(頂部 3 個,底部 3 個)約略 5kW 電源供應單元供電,有冗餘設計。

- 散熱規劃是 85% 液冷,15% 氣冷。

- 所有運算單元和交換單元都使用液體冷卻,其中 GB200 特別採用冷卻液體接觸晶片散熱(DTC, Direct-To-Chip)。

- 有規模減半(18 個Grace CPU,36個B200 GPU)、兩個機架 NVLink 互連的精簡版本。

  • 18 個 1U 單元的運算托盤。

- 2 個 GB200 Superchip 模組,總計 2 個 Grace CPU 和 4 個 B200 GPU。

- 每個 GB200 Superchip 包含 1 個 300W 的 Grace CPU(72 核)及 2 個 1200W 的完整版 B200 GPU,搭載 480GB LPDDR5 和 384GB HBM3e 記憶體。

  • 9 個 1U 單元的 NVSwitch 托盤。

- 2 個 NVSwitch 交換器晶片,總計 288 埠。

- 整個機櫃 18 個 NVSwitch,總共 2,592 埠,5184 條 NVLink 纜線。

  • [ 後端網路 ] 72 埠 InfiniBand NIC(400Gbps CX7)。

- 每個運算托盤 4 埠。

  • [ 前端網路 ] 36 個 BlueField-3 SuperNIC DPU 網路卡。

- 每個運算托盤 2 張,處理網路和儲存卸載(Off Load)。

值得一提的是,GB200 NVL72 裡面 18 個NVSwitch,NVLink 網路連結了機架中的所有 72 個 GPU,總共有 5,184 條 NVLink 銅纜線(18 個 NVSwitch x 144 埠 x 2 個傳輸方向),長度總共 2 英哩,換算平均長度是 62 公分。

黃仁勳為此表示,假如必須使用光學元件,光是收發器和重定時器(Retimer)就會吃掉「20kW」電量,但 NVSwitch 卻「完全免費的」完成這項工作,並節省了這 20kW 的計算電量。此言一出,如同台灣那票緊跟著 Nvidia 的系統廠,供應 Nvidia 的連接器與纜線供應商的股價馬上跟著雞犬升天。

▲ 論單一高密度運算機架,雖然 GB200 NVL72 吸引眾人目光,但筆者必須提醒各位,其基礎架構 Oberon 平台早在 GH200 NVL32 就登場了,連接 16 個運算托盤和 9 個 NVSwitch 交換器托盤,總計 32 個 Grace CPU、32 個 Hopper GPU 和 18 個 NVSwitch,換言之, GB200 NVL72 並非 Nvidia 的第一次嘗試,其中也沒有什麼可讓人津津樂道的「祕密」,更罔論「黑科技」。

面向「適用於企業部署的人工智慧基礎架構」,Nvidia 也同步發表連接 8 台 GB200 NVL72 的 DGX SuperPOD 版本,具有 288 個 Grace CPU、576 個 B200 GPU、240TB 記憶體,張量核心使用 FP4 時達到 11.5exaFLOPS 的峰值性能。

GB200 NVL72 也計劃交付給雲端服務供應商,將先引入 AWS、Google Cloud 和 Oracle Cloud。Nvidia 和 AWS 合作的「Project Ceiba」超級電腦,預計將 GH200 替換成 GB200 NVL72,因此,整個系統將擁有超過 20,000 個 GPU、超過 400exaFLOPS 的效能、4PB 容量的 HBM3e 記憶體以及 2PB/s 的理論總頻寬。

順便一題,GB200 NVL72 另有規模減半的低功耗版本:9 個運算托盤、18 個Grace CPU 與 36 個 B200,可透過 NVLink 擴展為兩個機架,對大多數企業而言,這個版本會較易於部署,畢竟完整版的最高總功率 120kW 的確是有點過分了。

120kW 是怎樣的概念?大概就等同 4 個 Gogoro 換電站,每當 GB200 NVL72 全力運轉一小時,差不多就是 12 戶家庭的每日用電量,跑滿一整天則是「288 戶」,傳聞 Nvidia 已預備下單 ODM 業者生產「五萬組」GB200 NVL72,有興趣的讀者可算算這樣一年會吃掉多少供電,人工智慧的普及對生態環境造成的沈重負擔,由此可見一斑。

提高客戶採購 GB200 的意願與台商們的「助攻」

理所當然的,Nvidia 對「通吃 CPU 和 GPU」的 GB200 寄予厚望,並刻意在「系統平台層面」,尤其是 NVLink、PCIe 世代和網路速度,擴大 GB200 與 B100/B200 的規格差距,期望差異化和方案區隔,以提高客戶採購 GB200 的意願,這也是 GB200 能夠有兩個 B200 的主因,假以時日 Grace CPU 也應該被升級成 Grace-Next,就看這次是哪位物理學家還是數學家被 Nvidia 致敬。

以 B100/B200 的 Umbriel 平台為例,僅保留 PCIe Gen 5 和 400Gbps 網路,要 PCIe Gen 6 和 800Gbps 網路,就非得要 Oberon(GB200)和尚未問世的 Miranda(B200 NVL72)不可。

但 GB200 看起來很厲害是一回事,對於長期以 x86 處理器搭配 GPU 為主的雲端服務業者,要短期內更換到 Arm 架構絕非易事,前一個世代的 GH200 也僅有 AWS 這個主要客戶,這也跟 AWS 多年來早已自研自用一系列 Graviton 處理器脫離不了關係。

反過來說,GB200 變相減半所需的 Grace CPU,將可壓低總體持有成本(TCO),因為 GH200 的價格實在太貴了,而大多數的 AI 負載,實際上用不到伺服器上昂貴的 Grace CPU 所提供的功能。

很多時候,GH200 中的 Grace CPU 只充當了「世界上最昂貴的記憶體控制器」。基本上,在可以單獨購買 GPU 的場景,所有 AI 大公司都會寧願選擇買更多的 GPU,再另外順便多下單給英特爾和 AMD,而不是 Nvidia 的 CPU。

除此之外,假若這些客戶從 x86 伺服器轉向「Nvidia 統包」的 GH200/GB200,一旦被綁死,不但持續建置 AI 算力的投資報酬率恐怕不會太好看,對 Nvidia 的長期議價能力也將只降不升,反觀融合 x86 處理器和 GPU 的 AMD MI300A 還比較沒有這樣的疑慮,也許 AMD 會藉此吸引到部分潛在客戶的青睞,而英特爾的 Falcon Shore XPU 早就沒人知道究竟跑到哪裡去了。

▲ 同樣是融合 CPU 和 GPU,AMD 有以 MI300A 為首的超級 APU「EHP」(Exascale Heterogenous Processor),Nvidia 則有 GH200(Grace Hopper)和 GB200(Grace Blackwell)兩種 Superchip,但現在已經沒人知道英特爾的 XPU 何時能問世了。

當 x86 雙雄正面臨著「現有的大客戶們正在試圖自己研發取而代之的 Arm 處理器」的超巨大危機時,Nvidia 也同樣面對著手握 Trainium 2 和 Inferentia 3 的 AWS 和持有 Azure Maia 100 AI 加速器(Athena 或 M100)的微軟,更罔論在歷代 TPU 卓然有成的 Google。從這個角度來看,有一個非常合理的論點認為:由於這種「天災無法擋」的競爭威脅,Nvidia 將無法維持其市場占有率和獲利率。

▲ AWS 自己設計多種晶片,不僅省下不少錢,降低營運成本,並且提供用戶更經濟的選擇,創造雙贏局面,但這對英特爾和 AMD 來說,就是天大的壞消息了,現在連 Nvidia 也將面對類似的困境。

只不過,Nvidia 絕不會眼睜睜的袖手旁觀,從管理風格到路線決策,他們一直是業界最偏執的公司,沒有之一,黃仁勳的行事風格充分體現了 Andy Grove 的「唯偏執狂得以生存」的精神,從研製晶片到生態系統,從銷售硬體到雲端戰略(DGX Cloud 和之後的演進,值得密切關注),從「潛在反競爭行為」的商業模式到「總是下大筆賭注」的供應鏈管理,Nvidia 採取了野心勃勃並充滿風險的多管齊下策略,以維繫人工智慧硬體市場的領導地位,更希望超越英特爾和 AMD 等傳統競爭對手,躋身科技巨頭的行列。

在筆者行文的當下,Nvidia(2.15 兆美元)跟蘋果(2.61 兆美元)的市值可說是非常接近了,也超過了 Meta(Facebook)、Alphabet(Google)和 Amazon。

▲ MGX 模組化伺服器平台可謂「Nvidia 的 OCP」,雖然這看似消除了設計伺服器的所有艱苦工作,但這也製造更多競爭並且壓低 OEM 品牌的利潤,而台灣的「低成本公司」就一如往昔的衝進去通通殺成一團,先姑且不論雞犬升天的股價,最後的大贏家還是只有 Nvidia。

但說到底,Nvidia 之所以能這樣的「雄才大略」,最後也是靠著一大票公司高層搶著跟黃仁勳一同入鏡的台商們,姑且不論 MGX 模組化伺服器能否創造了更多競爭並壓低了傳統 OEM 品牌的利潤並引發抵制態度,但沒這些被黃仁勳「認證」的台廠將「低成本人工智慧商品化」,Nvidia 絕對不會享有如此風光的榮景。

只是正所謂「不患寡而患不均」,有人吃肉,有人喝湯,有人舔碗底,有人整碗捧走,有人只能看著流口水,Nvidia 的「愉快夥伴們」當中的成員們扮演著何種角色,就留待各位讀者們的自由心證了。

大哉問:還有晶片大廠在關心消費性獨顯嗎?

如今 GPU 的應用已經非常的廣泛和多元,像手機和汽車中的人工智慧推理、加密貨幣挖礦,高效能浮點運算等等,早已遠遠超過「繪圖」的範疇,更不乏連輸出畫面都不行的運算專用處理器,其象徵就是這票讓 Nvidia 和 AMD 賺大錢的巨無霸晶片。

但科技的進步總是會造成「得益者」和「受害者」,很不幸的,時下主流的「人工智慧加速器」雖然清一色奠基於消費性娛樂市場的成果,從 3D 遊戲一步一腳印的走到今日的 GPGPU,但卻反過頭來反噬其發展的起源,讓一般消費者蒙受其害。

無論 Nvidia 還是 AMD,眼前所專注的都是超高獲利、動輒以「十億美元」為單位起跳的資料中心市場,特別是「人工智慧 GPU」。Nvidia GeForce RTX40 系列自推出距今已超過 17 個月,未見 RTX50 姍姍來遲還不打緊,近期 AMD 打算集中資源「想要在利潤豐厚的 AI 領域與 Nvidia 進行更有效競爭,中止了發布高階 RDNA 4 顯卡的計畫,下一代 RX8000 系列將不會有旗艦卡」的傳言,從來就沒有停止過。在缺乏市場競爭的情況下,讓人難以想像發展逐漸停滯的遊戲獨顯與高不可攀的零售價格,是否即將成為一般消費者不願親眼見證的現實。

或許「AI PC」對算力的嚴苛要求會是唯一的救贖(前提是在本機端進行訓練),但每當筆者想像著在某年某月某日,GPU 雙雄斷然拋棄昔日的衣食父母,只剩下英特爾願意認真經營(現在的情勢很有這樣的味道),回首近三十年的 GPU 發展史,直到消費性獨顯彷彿即將變成棄嬰的今天,時過境遷,不啻是莫大的諷刺,不如將 GPU 重新命名為「平行處理應用加速器單元」(PPAAU,Parallel-Processing Application Accelerator Unit)還會更加的貼近事實。

(首圖來源:NVIDIA

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0