2026 AI 資本支出迎來黃金交叉!Gartner 預測「AI 推理」投資將正式超越模型訓練
過去五年,AI 產業的競爭核心是誰能訓練出更大的模型。但現在,這個戰場正在快速轉移。根據《華爾街日報》報導,隨著企業開始大規模部署 AI 代理、將生成式 AI 工具導入實際業務流程,市場焦點已從「訓練模型」轉向「使用模型」,也就是所謂的「推理」(inference)。這代表 AI 正從研發競賽,進入商業化與規模化應用的新階段。
這個轉變,將反映在資本支出結構上。市場研究機構 Gartner 預測,今年全球用於 AI 推理基礎設施的資本支出,將首次超越訓練支出;到 2029 年,企業在推理上的支出將達 720 億美元,將是訓練支出約(370 億美元)的兩倍。
從訓練到推理,AI 正從「學習」走向「工作」
簡單來說,AI 分為兩個階段:訓練與推理。訓練就像是讓 AI 學習知識的過程:模型會被餵入大量資料,例如文本、圖片與數據,在數萬顆晶片的運算下,經過數週甚至數月的訓練,學會語言、邏輯與模式。
而推理則是模型正式上線後的日常運作。當使用者輸入問題,AI 模型會即時生成答案,這個過程就是推理。
《華爾街日報》用一個比喻來解釋,如果 AI 是一間餐廳,訓練就是廚師學習各種料理,而推理則是餐廳開始接單、出餐。隨著 ChatGPT、Copilot 等工具普及,企業開始真正依賴 AI 提供服務,推理的需求也因此爆發。
推理如何運作?其實分成兩個階段
AI 推理主要包含兩個步驟。第一步是 prefill,也就是理解問題。當使用者輸入提示詞,模型需要解析每個字詞與上下文,以精確掌握真實意圖。第二步是 decode,生成答案。模型根據訓練學到的知識,一個 token 一個 token 地生成回應。
所謂 token,是 AI 處理語言的基本單位,大約相當於一個英文單字的四分之三。而 AI 回答問題時,其實是在快速生成一連串 token。
AI 推理基礎設施需要什麼硬體條件?
《IEEE Spectrum》指出,訓練與推理在運算需求上有明顯差異。訓練通常是在大量資料上同時進行,時間可能長達數週;但推理則是在使用者發出請求時即時執行。因此,相較於訓練需要進行高成本的反向傳播,推理更重視的是「速度」,也就是低延遲。特別是具備推理能力的模型,往往在輸出結果前就已經跑過多次推理,因此回應速度直接影響使用體驗。
prefill 和 decode 這兩個階段對硬體的需求也不同。《華爾街日報》指出,prefill 需要強大的運算能力;decode 則更依賴記憶體與資料存取速度。這也是為什麼推理晶片的設計,開始與傳統訓練用 GPU 出現差異。
也因此,推理晶片需要更大容量的高頻寬記憶體,而且其所屬的資料中心必須靠近用戶密集區域,以降低延遲。像 Ayar Labs 這類晶片新創,更已開始採用光纖來連接各種元件。相較傳統的銅線,光纖不僅資料傳輸速度更快,也能降低散熱需求,進一步提升整體系統效率。
專注推理的晶片新創快速湧現
過去幾年,專注推理的晶片新創快速湧現,形成類似「寒武紀大爆發」的局面,各家公司嘗試不同技術路徑提升效能。《IEEE Spectrum》舉例,D-matrix 採用數位記憶體內運算、Etched 開發專為 transformer 推理設計的 ASIC、RainAI 推動類神經晶片、EnCharge 採用類比記憶體內運算、Tensordyne 以對數運算優化 AI 計算效率、FuriosaAI 則針對張量運算進行硬體最佳化等。
喬治城大學研究 AI 的學者 Jacob Feldgoise 指出,對於推理需求日益增加的企業來說,若改用專為推理設計的晶片,通常能帶來更好的效能表現,而這也意味著科技公司採購的晶片類型將出現重大變化。
*本文開放合作夥伴轉載,資料來源:《The Wall Street Journal》、《IEEE Spectrum》,首圖來源:Unsplash