AI 算力戰轉向「記憶體壓縮」:Google 出手發表 TurboQuant 演算法,如何重構 AI 推論成本?
當 AI 產業仍在比拼誰能打造更大模型、更強算力時,Google 正從另一條路徑突圍。近期 Google Research 發表全新演算法 TurboQuant,主打透過極端壓縮 AI 模型在推論過程中的記憶體使用,將關鍵的記憶體需求降低約 6 倍,同時讓注意力計算速度提升最高 8 倍。
這意味著,企業在部署長上下文 AI 應用時,可能不再需要無止境擴充 GPU 記憶體,甚至有機會將整體 AI 推論成本降低 50% 以上。這項技術被部分業界人士如 Cloudflare 執行長 Matthew Prince 形容為「Google 的 DeepSeek 時刻」,象徵 AI 競爭正從堆疊算力轉向拼效率。
AI 推論真正瓶頸:不是算力,而是記憶體
要理解 TurboQuant 的重要性,關鍵在於一個長期被忽視的問題:KV cache。
當大型語言模型處理長文本或多輪對話時,會將每個 token 轉換成向量並暫存在記憶體中,形成所謂的 KV cache。這相當於模型的短期記憶,用來決定上下文關聯。
然而根據《Stark Insider》,問題在於這段記憶會隨著對話長度快速膨脹,直接吃掉 GPU 的 VRAM,導致推論速度下降、成本上升,甚至出現記憶體不足的問題。這也是為什麼企業在部署長文件分析、RAG 系統或 AI 代理等 AI 應用時,往往不得不投入更多 GPU 與高頻寬記憶體(HBM),形成「用硬體解決問題」的發展路徑。而 TurboQuant 的出現,正是針對這個核心瓶頸。
TurboQuant 在做什麼?用數學取代硬體升級
與其增加記憶體,TurboQuant 選擇讓記憶體變得更有效率。其核心做法是將原本高精度的向量資料壓縮至極低位元,並透過兩個關鍵技術維持準確度。
第一是「PolarQuant」將向量從傳統 Cartesian 座標轉換為極座標,使資料分布變得可預測,進而不需要額外儲存大量 normalization 常數。第二則利用 Quantized Johnson-Lindenstrauss(QJL)轉換,把殘餘誤差壓縮成單一位元的符號訊號,並確保整體計算結果仍維持統計上的無偏性。
《VentureBeat》指出,這讓模型在壓縮後仍能維持與原始模型統計上等價的推論結果。Google 實測結果顯示,在 Llama、Mistral 等模型上,TurboQuant 不僅能達到至少 6 倍記憶體壓縮,還能在 needle-in-a-haystack(大海撈針)測試中維持與未壓縮模型相同的準確率。
更值得關注的是,Google Research 強調 TurboQuant 可套用於現有模型,不需要重新訓練,因此更容易在各種設備部署、降低導入門檻。
對產業的衝擊:AI 不再依賴無限擴張的硬體
這項技術的影響,已經開始反映在市場上。報導指出,在 TurboQuant 發布後,記憶體相關供應商股價出現下跌,反映投資人預期未來 AI 對高頻寬記憶體(HBM)的需求可能下降。然而,《VentureBeat》提及,也有觀點認為這種解讀過於短期。
從長期來看,當 AI 成本下降,應用場景將快速擴張,反而會帶動整體算力需求上升。這正是經濟學中的「Jevons Paradox」(傑文斯悖論):效率提升,反而可能導致總消耗增加。
《Stark Insider》指出,這代表 AI 正在進入一個新的競爭階段:從比誰的模型最大,轉向誰的效率最高。
此外,當記憶體需求大幅下降,原本需要依賴高階 GPU 與雲端資源的模型,開始有機會在較低規格的硬體上運行。《Stark Insider》指出,這類壓縮技術可能促使 AI 從集中式雲端架構,逐步轉向更分散的部署模式。《VentureBeat》也提到,TurboQuant 已能讓長上下文模型在消費級硬體上運行,進一步提高本地部署的可行性。
AI 下一場戰爭:不在 GPU,而在記憶體與推論效率
整體來看,TurboQuant 的真正意義,不只是讓 AI 更快或更便宜。它代表的是一個更深層的轉變:AI 產業正從「算力驅動」,轉向「效率驅動」。未來的競爭關鍵,將不再只是誰擁有最多 GPU,而是:誰能更有效利用記憶體、用更低成本完成推論、讓 AI 在更多場域運作。
不過,《TechCrunch》提醒,TurboQuant 目前尚未大規模實際部署,仍停留在實驗室階段。TurboQuant 更可能帶來的是效率提升,讓推論過程所需記憶體降低。但它未必能解決 AI 帶動的整體記憶體(RAM)短缺問題,因為它主要優化的是推論端,而非仍需大量記憶體的訓練階段。
【推薦閱讀】
◆ ASML 霸權迎來變數?挪威新創獲微軟 M12 投資,氦原子束如何顛覆 EUV 極限
*本文開放合作夥伴轉載,資料來源:《TechCrunch》、《VentureBeat》、Google Research、《tom’s Hardware》、《Bitget》、《Stark Insider》,首圖來源:Google Research