比 NVIDIA 系統快 4 倍、功耗只有五分之一：Tensordyne 用一個數學技巧重新設計 AI 推理晶片

當 AI 產業焦點逐漸從訓練競賽轉向推理競賽，市場開始思考：下一代 AI 系統比拼的，是堆疊更多的 GPU，還是更低的 Token 成本？AI 晶片新創 Tensordyne 給出的答案，是後者：從「數學架構」重新設計 AI 運算。根據《Reuters》報導，這家公司宣布即將推出的推理系統 Tensordyne Napier（TDN）已吸引超過 2 億美元的預估需求，並有十多家企業表達測試意向。

宣稱速度比 NVIDIA GB300 快 4 倍、功耗僅五分之一

最能說明 Tensordyne 野心的，是它端出的對比數字。《IEEE Spectrum》報導，根據模擬結果，Tensordyne 的新晶片在推理的能源效率與延遲上，有機會大幅超越市場領導者 NVIDIA。該公司宣稱，其 72 顆晶片系統運行大型 LLM 的速度，是配備 72 顆晶片 NVIDIA GB300 系統的 4 倍，功耗卻僅五分之一。

成本端同樣是賣點。根據《IEEE Spectrum》，其一個由 4 個 pod 組成的機櫃在運行 2 兆參數的 LLM 時，可達到每位使用者每秒 1,300 個 token，成本為每百萬 token 11 美元，功耗為 120 千瓦；相較之下，要達到類似的每位使用者每秒 token 吞吐量，需要至少一套 9 個機櫃的 NVIDIA Rubin 與 Groq 3 系統，且依該公司估計可能會消耗約 1.5 兆瓦的電力。換言之，Tensordyne 主打的核心優勢，正是用更低的功耗與每 Token 成本完成大型模型推理。

把乘法變成加法：對數運算的賭注

那麼，這樣的效率從何而來？與多數 AI 晶片公司選擇透過更先進製程、更大記憶體或更多晶片堆疊提升效能不同，Tensordyne 選擇從矩陣運算本身下手，並包含運算架構、機一體與網路等核心層面設計整個 AI 推理技術堆疊。矩陣乘法是大型語言模型執行推理時最核心的運算之一。Tensordyne 的 Napier 晶片利用「對數（Logarithm）運算」特性，將原本需要大量乘法器執行的計算轉換成加法運算。

Tensordyne 共同創辦人暨 AI 副總裁 Gilles Backhus 向《IEEE Spectrum》表示：「我們把乘法器變成了加法器（We’ve turned multipliers into adders）。」原因在於，數學上 log(A×B) 等於 log(A)+log(B)。而相較於乘法器，加法器所需電路面積更小、功耗更低，因此能在相同晶片面積內放入更多運算單元。

這個原理早已為人所知，難的是怎麼用。Backhus 表示，過去在對數與描述神經網路的浮點數之間來回轉換，太耗時、太耗電，也會引入太多誤差；而 Tensordyne 的突破，正是解決了這個關鍵。「到目前為止，沒有人想出像我們這樣做線性轉對數、對數轉線性的方法。」他說，其公司的工程師找到了在晶片上「非常優雅、非常精準且便宜」完成這件事的方式。

事實上，數字格式的重要性 AI 業界也不陌生。《IEEE Spectrum》提到，NVIDIA 首席科學家 Bill Dally 曾在 2023 年的 Hot Chips 會議上，把當時 GPU 改進的大部分歸功於採用更短的數字格式；學界也研究過 posit、takum 等類對數格式，但因其硬體實作與傳統浮點差異太大，始終未能普及。

為何是現在？推理取代訓練成為焦點

Tensordyne 押注推理，呼應了整個產業的重心轉移。《IEEE Spectrum》指出，包括 AI 代理興起在內的市場趨勢，意味著「推理」（即執行神經網路模型）正變得比訓練新的大型語言模型更重要，成本與回應速度開始主導，促使 AI 公司尋找更契合這項任務的系統架構，而 Tensordyne 高層表示，他們早就預見了這一點。

要理解其設計，得先看執行 LLM 的兩個階段。報導說明，第一階段是 prefill，模型接收輸入文字、轉成 token，並建立一種關於輸入的工作記憶（key-value cache），這是運算量很重的任務；第二階段是 decode，模型逐一生成輸出 token，由於每個新 token 都要根據前一個 token 與 key-value cache 來預測，這種序列性質讓 decode 較慢，且更依賴記憶體與網路延遲，而非運算力。

正因兩階段需求不同，晶片業者開始分而治之：NVIDIA 主打用一櫃 B300 GPU 負責 prefill、再用數櫃 Groq 3 處理器負責 decode；AWS 則用一櫃自家 Trainium 晶片做 prefill、搭配數櫃 Cerebras 的晶圓級電腦做 decode。

Tensordyne 的差異化主張，是用單一系統同時應付這兩種需求。「我們是同時為兩個難題進行最佳化，」共同創辦人暨產品長 R.K. Anand 表示，「我們是第一家證明你可以不靠多家供應商、多個機櫃就同時做到這兩件事的公司。」具體而言，prefill 所需的密集運算來自對數數學，decode 的需求則由 144GB 的高頻寬記憶體，以及一套延遲僅 1 微秒的客製網路「Tensordyne Napier Link」來滿足。

數字仍待驗證，背後夥伴與資金到位

不過，Tensordyne 的成效要等到今年稍晚才會有真實系統來驗證；該公司計劃先透過雲端提供 beta 版本供客戶使用，並預計約一年後開始出貨，72 晶片系統的商業銷售則排定在 2027 年下半年。

在落地能力上，Tensordyne 並非單打獨鬥。據《Reuters》報導，Napier 晶片是與 Broadcom 及 HPE 旗下的 Juniper Networks 合作開發，並由全球最大的晶圓代工廠台積電製造，採用 3nm 製程。這家總部位於加州 Sunnyvale 的公司，目標是在生成式 AI 需求激增之際，透過提升推理速度、功耗效率與機櫃密度來緩解 AI 基礎設施的瓶頸。

《Reuters》補充，Tensordyne 成立於 2017 年，原名 Recogni，去年才改名，迄今已從 Celesta Capital、GreatPoint Ventures 與 Juniper Networks 等投資人募得約 1.76 億美元，並準備在今年稍晚進行 D 輪募資。

綜合來看，Tensordyne 的故事不只是「又一家挑戰 NVIDIA」的新創。當它選擇從對數數學重新設計運算、主打更低的功耗與每 Token 成本時，反映的是 AI 基礎設施競爭正從單純堆疊算力的軍備競賽，走向推理經濟學與效率競爭的新階段。只是，這套以數學為賭注的架構究竟能否兌現模擬中的數字，仍得等到真實系統上線後才會揭曉。

【推薦閱讀】
◆ 從黑名單到全鏈追蹤：台灣擬將 AI 晶片管制擴大到所有中國客戶，伺服器供應鏈迎合規新考驗
◆ 黃仁勳親解 Vera CPU 戰略：這是一個 6 個月前還未存在的市場
◆ 從 GPU 主導到 CPU 回溫：Agentic AI 如何改寫企業資料中心配置？

＊本文開放合作夥伴轉載，資料來源：《Reuters》、《IEEE Spectrum》、《Forbes》、Tensordyne，首圖來源：

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

宣稱速度比 NVIDIA GB300 快 4 倍、功耗僅五分之一

把乘法變成加法：對數運算的賭注

為何是現在？推理取代訓練成為焦點

數字仍待驗證，背後夥伴與資金到位

更多理財相關文章

美光一人救全村！台股反彈500點　記憶體股大漲

SpaceX、特斯拉重挫身家蒸發逾3400億美元馬斯克跌落「兆萬富翁」寶座

遊戲橘子宣布瘦身15％！裁虧損單位、封存新創　全力押注AI

台股暴殺千點專家點「新黑天鵝」出現：盡頭是玄學

台積電副總莊子壽贈與5百張持股給他市值近12億元

AI股重挫台股要逃要接？法人：企業獲利撐腰、台股為AI浪潮核心

請更新您的瀏覽器啟用Javascript

比 NVIDIA 系統快 4 倍、功耗只有五分之一：Tensordyne 用一個數學技巧重新設計 AI 推理晶片

TechOrange 科技報橘

宣稱速度比 NVIDIA GB300 快 4 倍、功耗僅五分之一

把乘法變成加法：對數運算的賭注

為何是現在？推理取代訓練成為焦點

數字仍待驗證，背後夥伴與資金到位

更多理財相關文章

美光一人救全村！台股反彈500點 記憶體股大漲

SpaceX、特斯拉重挫 身家蒸發逾3400億美元 馬斯克跌落「兆萬富翁」寶座

遊戲橘子宣布瘦身15％！裁虧損單位、封存新創 全力押注AI

台股暴殺千點 專家點「新黑天鵝」出現：盡頭是玄學

台積電副總莊子壽贈與5百張持股給他 市值近12億元

AI股重挫台股要逃要接？法人：企業獲利撐腰、台股為AI浪潮核心

請更新您的瀏覽器

美光一人救全村！台股反彈500點　記憶體股大漲

SpaceX、特斯拉重挫身家蒸發逾3400億美元馬斯克跌落「兆萬富翁」寶座

遊戲橘子宣布瘦身15％！裁虧損單位、封存新創　全力押注AI

台股暴殺千點專家點「新黑天鵝」出現：盡頭是玄學

台積電副總莊子壽贈與5百張持股給他市值近12億元