通用 GPU 時代終結?揭開 AI 推理 4 大戰線:為何 SRAM 成下一記憶體戰場
在 AI 產業快速邁入規模化部署的階段,一個過去被視為後段流程的環節,正成為資料中心與半導體競爭的主戰場:推理(inference)。
根據 Deloitte 最新報告,2025 年下半年,推理相關工作負載在資料中心的營收首次超越模型訓練,成為 AI 基礎設施的主要收入來源。這個被業界稱為「推理翻轉」(Inference Flip)的轉折點,正在重塑整個 AI 技術棧的設計邏輯。
也正是在這樣的背景下,NVIDIA 近日以約 200 億美元規模的非獨家授權協議,取得 Groq 的關鍵推理技術與絕大多數核心團隊,被外界視為一個清楚的訊號:「一種 GPU 打天下」的時代,正在動搖。
「推理翻轉」成形,衡量 AI 的標準正在改變
過去模型訓練主導的年代,AI 硬體競爭的核心指標是 FLOPs、參數規模與可擴展性;GPU 的高度平行化設計,完美契合大規模矩陣運算的需求。
但在推理成為主戰場後,產業關注的指標出現根本位移。準確率仍然重要,卻不再是唯一勝負關鍵,真正左右成本與體驗的是:延遲是否穩定、每單位 token 的耗能與成本、模型是否能在長時間任務中維持「狀態」(state)。
值得留意的是,Deloitte 指出,即便推理晶片市場快速成長:2026 年推理工作負載將佔整體 AI 計算需求約三分之二,但最昂貴、耗能最高的先進 GPU 仍將長期存在於大型資料中心。換言之,市場並非 GPU 被取代,而是架構開始分裂與分工。《VentureBeat》分析出推理市場的 4 大戰線:
戰線 1:AI 推論被拆成兩半
Groq 投資人 Gavin Baker 指出,AI 推論正在拆分為 prefill 與 decode 兩個階段,也是驅動 NVIDIA 此次交易的因素。
Prefill 指的是模型讀取與理解使用者提示的階段,無論是數十萬行程式碼或長達一小時的影片,都需要進行大量矩陣運算,屬於高度仰賴算力的工作,正是 NVIDIA GPU 的強項;而 decode 則是逐 token 生成內容的階段,效能瓶頸不在算力,而在記憶體頻寬,資料若無法快速在記憶體與處理器間移動,再強的 GPU 也會卡頓,這正是 Groq 採用 LPU 與 SRAM 架構的優勢所在。
NVIDIA 也已正面回應這種架構分化,宣布推出專為此設計的 Vera Rubin 晶片家族。其中 Rubin CPX 將擔任 prefill 的主力,支援百萬 token 級的大型上下文,並改用成本更低、容量更大的 GDDR7 記憶體,以取代昂貴且供應受限的 HBM;而 Groq 架構風格的晶片設計,則將被納入 NVIDIA 的推論藍圖,負責高速 decode。
戰線 2:SRAM 的差異化優勢
第二條戰線圍繞著記憶體技術的選擇,特別是 SRAM(靜態隨機存取記憶體)的應用。與需要頻繁在處理器與外部記憶體間搬運數據的 DRAM、HBM 不同,SRAM 直接蝕刻在處理器邏輯中,能以極低的能耗實現高速數據傳輸。微軟創投基金 M12 的執行合夥人 Michael Stewart 形容,SRAM 是 2026 年 AI 代理進行即時推理的終極「便條紙」。
這樣的設計雖不適用於兆級參數的前沿模型,但非常適合小於 80 億參數的模型、低延遲與即時互動任務、邊緣推理、語音、機器人、IoT。而這正好對應 2025 年後快速成長的趨勢:模型蒸餾和小模型爆發。企業不再只追求最大模型,而是把模型縮小、變快、變便宜,部署在更多場景中。
戰線 3:軟體堆疊變得可攜,CUDA 護城河被侵蝕
第三條戰線則來自軟體層面的挑戰,特別是 Anthropic 成功構建的「可攜式堆疊」。Anthropic 開發了一套軟體層,使其 Claude 模型能夠在 NVIDIA GPU 與 Google TPU 等不同加速器之間流暢運行,打破了長期以來由 NVIDIA CUDA 生態系統築起的護城河。
Anthropic 近期承諾使用 Google 高達 100 萬顆 TPU 的運算量,顯示軟體定義的靈活性正在削弱單一硬體供應商的定價權。對於 NVIDIA 而言,整合 Groq 的高速推理技術不僅是進攻,更是防守。這確保了即使是最講究效能的即時推理工作負載,也能在 NVIDIA 的生態系內獲得滿足,從而降低客戶轉向 Google Ironwood TPU 或 AWS Trainium 等競爭對手的誘惑。
戰線 4:AI 代理的「狀態戰爭」與 KV Cache
推理競爭的最後一條戰線,來自 Agentic AI(AI 代理)。當 AI 代理需要執行多步驟任務、查資料、寫程式、反覆修正決策時,是否能保留上下文狀態,思考並記憶大量的資訊成為關鍵。
在這種環境下,KV Cache(鍵值緩存)的命中率成為關鍵指標。KV Cache 是大型語言模型在 prefill 階段建立的「短期記憶」。模型在讀取使用者提示內容時,會將關鍵的中間運算結果以鍵值對形式暫存起來,讓後續的生成(decode)階段不必重複計算,得以更快地逐 token 產生回應。如果快取被從記憶體中清除,代理就會失去思路,必須消耗大量能源重新計算。
Groq 的 SRAM 技術在此發揮了關鍵作用,它能作為代理的快速存取區,實現近乎即時的狀態檢索。NVIDIA 正在結合其 Dynamo 框架和 KVBM,為未來的推理伺服器建立一套「推理作業系統」,能夠將狀態分層儲存在 SRAM、DRAM、HBM 以及快閃記憶體中,以滿足不同速度的存取需求。
2026 年的 GPU 策略是路由決策
綜合來看,這場競爭並非 GPU 被淘汰,而是推理工作負載的碎片化速度,已超過 GPU 通用性擴張的能力。《VentureBeat》分析,隨著這 4 條戰線發展,未來半導體的市場將進入一個極度專業化的時代。對於企業的技術決策者來說,將依賴單一硬體、架構或方案來建構技術堆疊的日子已經結束。
根據 Deloitte,高階 GPU 仍將主導訓練、後訓練與大型模型推理,而推理專用架構,則將快速吃下低延遲、即時、代理型工作負載。因此,對於企業決策者來說,2026 年的 GPU 策略不再只是一張採購清單,還是一套「路由邏輯」:誰能清楚標記工作負載,並把每一個 token 送到最適合的運算層,誰就能在推理時代取得結構性優勢。
*本文開放合作夥伴轉載,資料來源:《VentureBeat》、Deloitte、《TechConstant》,首圖來源:Unsplash
解鎖 3 堂 NVIDIA DLI 技能培訓課!立即報名 1/10【AI 人才年會暨 AI 職涯博覽會】,就能免費參與課程強化 AI 能力、為職涯加分