Google TPU 與 AWS Trainium 夾擊下,黃仁勳親解 NVIDIA 真正護城河
當 Claude 與 Gemini 兩大模型都已在 TPU(張量處理單元)上訓練時,越來越多人開始關注:TPU 與客製化 ASIC 的崛起,是否正在鬆動 NVIDIA 長年建立的 AI 算力主導地位?對此,NVIDIA 執行長黃仁勳近日在 Dwarkesh Patel Podcast 訪談中給出的解答是:NVIDIA 做的從來不是單一的張量處理單元,而是更廣義的「加速運算」(accelerated computing)。
科技媒體《Implicator》進一步分析,黃仁勳在這場訪談中展現的戰略企圖心,遠大於單純的晶片規格之爭。面對客製化晶片的競爭、高達數兆美元規模的供應鏈需求壓力,乃至於中美半導體出口管制的角力,NVIDIA 正重新定調自己的角色:不只是一家 GPU 供應商,而是企圖成為掌控整個 AI 經濟的「調車場(switchyard)」。
TPU 能吃下特定工作負載,但 NVIDIA 瞄準的是更大的運算版圖
面對客製化晶片的競爭,黃仁勳直言:「我們打造的是非常不同的東西,我們的市場觸及範圍遠遠大於任何 TPU 或 ASIC 所能擁有的。」 他進一步指出,TPU 確實能針對特定的 AI 工作負載進行優化,但 NVIDIA 的加速運算架構卻能同時支援分子動力學、資料處理、流體力學、粒子物理與 AI 等更廣泛的應用場景。
更重要的是,NVIDIA 的系統設計宗旨是「讓其他人能夠輕易操作」。這使得 NVIDIA 的設備能順利進入 Google、Amazon、Azure 與 OCI 等所有主要雲端平台,並延伸至企業與科研領域,例如協助禮來公司(Lilly)建立用於藥物研發的超級電腦。對此,《Implicator》分析,NVIDIA 想掌握的,不是單純製造某一顆跑得最快的晶片而已,而是要進化 AI 算力流通與生態協調的連接能力。
真正的護城河是 CUDA 生態加上龐大安裝基礎
另一方面,隨著 OpenAI、Anthropic 等 AI 實驗室已具備自行編寫 kernels 的能力,加上 Google 這一類科技巨頭紛紛自研晶片,也讓外界思考 CUDA 的護城河是否正在瓦解?黃仁勳並未否認這些變化,但他將戰場從單一的矩陣乘法(matrix multiplication)拉高到整個 AI 系統層級,並強調:「矩陣乘法是 AI 的重要部分,但不是唯一的部分,如果你想提出新的注意力(attention)機制,以不同的方式分解或是發明一種全新的架構,你會需要一個具備通用可程式化能力的架構。」
他進一步說明,AI 技術的推進仰賴混合專家模型(MoE)等新架構,以及網路與系統的協同設計,因此市場極需高度可程式化的平台,而非單一負載最優化的窄型晶片。在這樣的基礎上,黃仁勳將 CUDA 視為極其豐富的生態系統,且支援各種開發框架,同時點出對開發者而言,最大的價值在於 NVIDIA 龐大的安裝基礎(install base):「我們現在有數億顆 GPU 部署在外,每一個雲端都有,這種安裝基礎意味著一旦你開發軟體或模型,在任何地方都會很有用,這有著令人難以置信的價值。」 這種遍及雲端、機器人與企業內部場景的跨平台覆蓋率,正是 CUDA 難以被短期取代的核心原因。
此外,黃仁勳更透露,NVIDIA 派駐了大量工程師協助 AI 實驗室最佳化其軟體堆疊,這項專業服務往往能讓客戶的模型效能再提升 2 到 3 倍,成為客戶難以輕易離開的關鍵實力。
從晶片競賽走向營運戰,NVIDIA 為何仍握有主要優勢?
然而,Anthropic 在本月宣布與 Google、Broadcom 簽下多吉瓦(gigawatt)級別的 TPU 容量協議,並表示會在 AWS Trainium、Google TPU 與 NVIDIA GPU 上同時運行 Claude 模型。這看似是 NVIDIA 護城河裂開的警訊,但實際上,《Implicator》認為 AI 運算的需求規模已經龐大到沒有任何單一買家、單一晶片或單一雲端平台能夠完全吸收,因此 Anthropic 不是在離開 NVIDIA,而是在極度渴求運算資源的市場中,購買更多的選擇權。
黃仁勳也直言,Anthropic 只是特例而非整體趨勢,若沒有 Anthropic,TPU 與 Trainium 根本不會有現在的成長幅度。他也點破外界認為客製化晶片能省下大筆費用的迷思,進一步指出 ASIC 的利潤率高達 65%,與 NVIDIA 約 70% 的利潤率相比,客戶實際省下的成本有限,且還要面臨 NVIDIA 每年大幅提升效能的壓力。
《Implicator》進一步點出,未來的 AI 競賽將是一場「營運戰」。NVIDIA 現在的優勢在於它能協調台積電、記憶體供應商、封裝廠與雲端買家,將供應鏈的「稀缺性」組織起來並轉化為競爭力。當客戶需要的不只是一顆晶片,而是交貨期、伺服器機架與軟硬體調校服務時,NVIDIA 強大的供應鏈調度能力便成為最強的後盾。這場主導權之爭的真正考驗將落在 2027 年,因為屆時 Anthropic 的 TPU 產能將大量上線,而 NVIDIA 的新一代 Rubin 架構也將部署,市場會驗證算力發展是否仍照著 NVIDIA 所定義的節奏運作。
TPU 確實能在特定工作負載上分走一部分的算力需求,但 NVIDIA 難以被取代的根本原因,已經不是過去熟知的 CUDA 軟體鎖定而已,而是來自於高度可程式化的架構、業界出色的總體擁有成本(TCO)表現、龐大的跨雲安裝基礎,以及協調整體 AI 運算生態系統的能力。若 NVIDIA 未來仍能持續掌握這個 AI 經濟中的「調車場(switchyard)」,那麼這些客製化晶片就更像是一條接入同一張龐大電網的新路線,而不必然是摧毀其護城河的破口。
*本文開放合作夥伴轉載,資料來源:Dwarkesh Podcast、《implicator.ai》,首圖來源:Dwarkesh Podcast