請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

AI 算力戰轉向「記憶體壓縮」:Google 出手發表 TurboQuant 演算法,如何重構 AI 推論成本?

TechOrange 科技報橘

更新於 03月26日12:56 • 發布於 03月26日04:43 • 廖紹伶

當 AI 產業仍在比拼誰能打造更大模型、更強算力時,Google 正從另一條路徑突圍。近期 Google Research 發表全新演算法 TurboQuant,主打透過極端壓縮 AI 模型在推論過程中的記憶體使用,將關鍵的記憶體需求降低約 6 倍,同時讓注意力計算速度提升最高 8 倍。

這意味著,企業在部署長上下文 AI 應用時,可能不再需要無止境擴充 GPU 記憶體,甚至有機會將整體 AI 推論成本降低 50% 以上。這項技術被部分業界人士如 Cloudflare 執行長 Matthew Prince 形容為「Google 的 DeepSeek 時刻」,象徵 AI 競爭正從堆疊算力轉向拼效率。

AI 推論真正瓶頸:不是算力,而是記憶體

要理解 TurboQuant 的重要性,關鍵在於一個長期被忽視的問題:KV cache。

當大型語言模型處理長文本或多輪對話時,會將每個 token 轉換成向量並暫存在記憶體中,形成所謂的 KV cache。這相當於模型的短期記憶,用來決定上下文關聯。

然而根據《Stark Insider》,問題在於這段記憶會隨著對話長度快速膨脹,直接吃掉 GPU 的 VRAM,導致推論速度下降、成本上升,甚至出現記憶體不足的問題。這也是為什麼企業在部署長文件分析、RAG 系統或 AI 代理等 AI 應用時,往往不得不投入更多 GPU 與高頻寬記憶體(HBM),形成「用硬體解決問題」的發展路徑。而 TurboQuant 的出現,正是針對這個核心瓶頸。

TurboQuant 在做什麼?用數學取代硬體升級

與其增加記憶體,TurboQuant 選擇讓記憶體變得更有效率。其核心做法是將原本高精度的向量資料壓縮至極低位元,並透過兩個關鍵技術維持準確度。

第一是「PolarQuant」將向量從傳統 Cartesian 座標轉換為極座標,使資料分布變得可預測,進而不需要額外儲存大量 normalization 常數。第二則利用 Quantized Johnson-Lindenstrauss(QJL)轉換,把殘餘誤差壓縮成單一位元的符號訊號,並確保整體計算結果仍維持統計上的無偏性。

《VentureBeat》指出,這讓模型在壓縮後仍能維持與原始模型統計上等價的推論結果。Google 實測結果顯示,在 Llama、Mistral 等模型上,TurboQuant 不僅能達到至少 6 倍記憶體壓縮,還能在 needle-in-a-haystack(大海撈針)測試中維持與未壓縮模型相同的準確率。

更值得關注的是,Google Research 強調 TurboQuant 可套用於現有模型,不需要重新訓練,因此更容易在各種設備部署、降低導入門檻。

對產業的衝擊:AI 不再依賴無限擴張的硬體

這項技術的影響,已經開始反映在市場上。報導指出,在 TurboQuant 發布後,記憶體相關供應商股價出現下跌,反映投資人預期未來 AI 對高頻寬記憶體(HBM)的需求可能下降。然而,《VentureBeat》提及,也有觀點認為這種解讀過於短期。

從長期來看,當 AI 成本下降,應用場景將快速擴張,反而會帶動整體算力需求上升。這正是經濟學中的「Jevons Paradox」(傑文斯悖論):效率提升,反而可能導致總消耗增加。

《Stark Insider》指出,這代表 AI 正在進入一個新的競爭階段:從比誰的模型最大,轉向誰的效率最高。

此外,當記憶體需求大幅下降,原本需要依賴高階 GPU 與雲端資源的模型,開始有機會在較低規格的硬體上運行。《Stark Insider》指出,這類壓縮技術可能促使 AI 從集中式雲端架構,逐步轉向更分散的部署模式。《VentureBeat》也提到,TurboQuant 已能讓長上下文模型在消費級硬體上運行,進一步提高本地部署的可行性。

AI 下一場戰爭:不在 GPU,而在記憶體與推論效率

整體來看,TurboQuant 的真正意義,不只是讓 AI 更快或更便宜。它代表的是一個更深層的轉變:AI 產業正從「算力驅動」,轉向「效率驅動」。未來的競爭關鍵,將不再只是誰擁有最多 GPU,而是:誰能更有效利用記憶體、用更低成本完成推論、讓 AI 在更多場域運作。

不過,《TechCrunch》提醒,TurboQuant 目前尚未大規模實際部署,仍停留在實驗室階段。TurboQuant 更可能帶來的是效率提升,讓推論過程所需記憶體降低。但它未必能解決 AI 帶動的整體記憶體(RAM)短缺問題,因為它主要優化的是推論端,而非仍需大量記憶體的訓練階段。

【推薦閱讀】

ASML 霸權迎來變數?挪威新創獲微軟 M12 投資,氦原子束如何顛覆 EUV 極限

代理式 AI 推升 4 倍 CPU 需求!Arm 打破 35 年傳統首推自研晶片,直攻兆元 AI 商機

2026 AI 資本支出迎來黃金交叉!Gartner 預測「AI 推理」投資將正式超越模型訓練

*本文開放合作夥伴轉載,資料來源:《TechCrunch》《VentureBeat》Google Research《tom’s Hardware》《Bitget》《Stark Insider》,首圖來源:Google Research

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

不買10年後會後悔!外媒點名「現買2檔股票」 台積電入列

CTWANT
02

難怪房價貴!北市額滿國中「這區上榜7所」 2區全軍覆沒

壹蘋新聞網
03

當真「富不過三代」?富蘭克林坦伯頓第三代提醒:台灣家族辦公室最該注意3件事

anue鉅亨網
04

中東衝突短期難解 未來一周美股要觀察四大變數

經濟日報
05

曝外資狂砍台積電「逆勢留倉這3檔」 專家點出共通性:錢沒消失只是換地方停

風傳媒
06

金價慘跌16%免驚? 分析師:回檔便是進場時機

CTWANT
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...