請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

通用 GPU 時代終結?揭開 AI 推理 4 大戰線:為何 SRAM 成下一記憶體戰場

TechOrange 科技報橘

更新於 2天前 • 發布於 2天前 • 廖紹伶

在 AI 產業快速邁入規模化部署的階段,一個過去被視為後段流程的環節,正成為資料中心與半導體競爭的主戰場:推理(inference)。

根據 Deloitte 最新報告,2025 年下半年,推理相關工作負載在資料中心的營收首次超越模型訓練,成為 AI 基礎設施的主要收入來源。這個被業界稱為「推理翻轉」(Inference Flip)的轉折點,正在重塑整個 AI 技術棧的設計邏輯。

也正是在這樣的背景下,NVIDIA 近日以約 200 億美元規模的非獨家授權協議,取得 Groq 的關鍵推理技術與絕大多數核心團隊,被外界視為一個清楚的訊號:「一種 GPU 打天下」的時代,正在動搖。

「推理翻轉」成形,衡量 AI 的標準正在改變

過去模型訓練主導的年代,AI 硬體競爭的核心指標是 FLOPs、參數規模與可擴展性;GPU 的高度平行化設計,完美契合大規模矩陣運算的需求。

但在推理成為主戰場後,產業關注的指標出現根本位移。準確率仍然重要,卻不再是唯一勝負關鍵,真正左右成本與體驗的是:延遲是否穩定、每單位 token 的耗能與成本、模型是否能在長時間任務中維持「狀態」(state)。

值得留意的是,Deloitte 指出,即便推理晶片市場快速成長:2026 年推理工作負載將佔整體 AI 計算需求約三分之二,但最昂貴、耗能最高的先進 GPU 仍將長期存在於大型資料中心。換言之,市場並非 GPU 被取代,而是架構開始分裂與分工。《VentureBeat》分析出推理市場的 4 大戰線:

戰線 1:AI 推論被拆成兩半

Groq 投資人 Gavin Baker 指出,AI 推論正在拆分為 prefill 與 decode 兩個階段,也是驅動 NVIDIA 此次交易的因素。

Prefill 指的是模型讀取與理解使用者提示的階段,無論是數十萬行程式碼或長達一小時的影片,都需要進行大量矩陣運算,屬於高度仰賴算力的工作,正是 NVIDIA GPU 的強項;而 decode 則是逐 token 生成內容的階段,效能瓶頸不在算力,而在記憶體頻寬,資料若無法快速在記憶體與處理器間移動,再強的 GPU 也會卡頓,這正是 Groq 採用 LPU 與 SRAM 架構的優勢所在。

NVIDIA 也已正面回應這種架構分化,宣布推出專為此設計的 Vera Rubin 晶片家族。其中 Rubin CPX 將擔任 prefill 的主力,支援百萬 token 級的大型上下文,並改用成本更低、容量更大的 GDDR7 記憶體,以取代昂貴且供應受限的 HBM;而 Groq 架構風格的晶片設計,則將被納入 NVIDIA 的推論藍圖,負責高速 decode。

戰線 2:SRAM 的差異化優勢

第二條戰線圍繞著記憶體技術的選擇,特別是 SRAM(靜態隨機存取記憶體)的應用。與需要頻繁在處理器與外部記憶體間搬運數據的 DRAM、HBM 不同,SRAM 直接蝕刻在處理器邏輯中,能以極低的能耗實現高速數據傳輸。微軟創投基金 M12 的執行合夥人 Michael Stewart 形容,SRAM 是 2026 年 AI 代理進行即時推理的終極「便條紙」。

這樣的設計雖不適用於兆級參數的前沿模型,但非常適合小於 80 億參數的模型、低延遲與即時互動任務、邊緣推理、語音、機器人、IoT。而這正好對應 2025 年後快速成長的趨勢:模型蒸餾和小模型爆發。企業不再只追求最大模型,而是把模型縮小、變快、變便宜,部署在更多場景中。

戰線 3:軟體堆疊變得可攜,CUDA 護城河被侵蝕

第三條戰線則來自軟體層面的挑戰,特別是 Anthropic 成功構建的「可攜式堆疊」。Anthropic 開發了一套軟體層,使其 Claude 模型能夠在 NVIDIA GPU 與 Google TPU 等不同加速器之間流暢運行,打破了長期以來由 NVIDIA CUDA 生態系統築起的護城河。

Anthropic 近期承諾使用 Google 高達 100 萬顆 TPU 的運算量,顯示軟體定義的靈活性正在削弱單一硬體供應商的定價權。對於 NVIDIA 而言,整合 Groq 的高速推理技術不僅是進攻,更是防守。這確保了即使是最講究效能的即時推理工作負載,也能在 NVIDIA 的生態系內獲得滿足,從而降低客戶轉向 Google Ironwood TPU 或 AWS Trainium 等競爭對手的誘惑。

戰線 4:AI 代理的「狀態戰爭」與 KV Cache

推理競爭的最後一條戰線,來自 Agentic AI(AI 代理)。當 AI 代理需要執行多步驟任務、查資料、寫程式、反覆修正決策時,是否能保留上下文狀態,思考並記憶大量的資訊成為關鍵。

在這種環境下,KV Cache(鍵值緩存)的命中率成為關鍵指標。KV Cache 是大型語言模型在 prefill 階段建立的「短期記憶」。模型在讀取使用者提示內容時,會將關鍵的中間運算結果以鍵值對形式暫存起來,讓後續的生成(decode)階段不必重複計算,得以更快地逐 token 產生回應。如果快取被從記憶體中清除,代理就會失去思路,必須消耗大量能源重新計算。

Groq 的 SRAM 技術在此發揮了關鍵作用,它能作為代理的快速存取區,實現近乎即時的狀態檢索。NVIDIA 正在結合其 Dynamo 框架和 KVBM,為未來的推理伺服器建立一套「推理作業系統」,能夠將狀態分層儲存在 SRAM、DRAM、HBM 以及快閃記憶體中,以滿足不同速度的存取需求。

2026 年的 GPU 策略是路由決策

綜合來看,這場競爭並非 GPU 被淘汰,而是推理工作負載的碎片化速度,已超過 GPU 通用性擴張的能力。《VentureBeat》分析,隨著這 4 條戰線發展,未來半導體的市場將進入一個極度專業化的時代。對於企業的技術決策者來說,將依賴單一硬體、架構或方案來建構技術堆疊的日子已經結束。

根據 Deloitte,高階 GPU 仍將主導訓練、後訓練與大型模型推理,而推理專用架構,則將快速吃下低延遲、即時、代理型工作負載。因此,對於企業決策者來說,2026 年的 GPU 策略不再只是一張採購清單,還是一套「路由邏輯」:誰能清楚標記工作負載,並把每一個 token 送到最適合的運算層,誰就能在推理時代取得結構性優勢。

*本文開放合作夥伴轉載,資料來源:《VentureBeat》Deloitte《TechConstant》,首圖來源:Unsplash

解鎖 3 堂 NVIDIA DLI 技能培訓課!立即報名 1/10【AI 人才年會暨 AI 職涯博覽會】,就能免費參與課程強化 AI 能力、為職涯加分

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

AI搶飯碗!美媒點名「最可能消失」7種工作

NOWNEWS今日新聞
02

你在淘汰名單上嗎?到2030年最可能消失的7種職業1次看

自由電子報
03

年薪破300萬!黃仁勳點未來搶手「3職業」成金飯碗:寫程式不是唯一出路

三立新聞網
04

「定期定額台積電」竟1股都沒買到 投資新手揭背後真相!全網朝聖:謝謝提醒

鏡週刊
05

她退休11年總花費只有314萬!居無定所走到哪、玩到哪、住到哪,壯遊世界把旅行當生活

幸福熟齡 X 今周刊
06

賣藍莓先看台灣!外媒曝市場的秘密

自由電子報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...