請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

比 NVIDIA 系統快 4 倍、功耗只有五分之一:Tensordyne 用一個數學技巧重新設計 AI 推理晶片

TechOrange 科技報橘

更新於 06月16日12:55 • 發布於 06月16日04:31 • 廖紹伶

當 AI 產業焦點逐漸從訓練競賽轉向推理競賽,市場開始思考:下一代 AI 系統比拼的,是堆疊更多的 GPU,還是更低的 Token 成本?AI 晶片新創 Tensordyne 給出的答案,是後者:從「數學架構」重新設計 AI 運算。根據《Reuters》報導,這家公司宣布即將推出的推理系統 Tensordyne Napier(TDN)已吸引超過 2 億美元的預估需求,並有十多家企業表達測試意向。

宣稱速度比 NVIDIA GB300 快 4 倍、功耗僅五分之一

最能說明 Tensordyne 野心的,是它端出的對比數字。《IEEE Spectrum》報導,根據模擬結果,Tensordyne 的新晶片在推理的能源效率與延遲上,有機會大幅超越市場領導者 NVIDIA。該公司宣稱,其 72 顆晶片系統運行大型 LLM 的速度,是配備 72 顆晶片 NVIDIA GB300 系統的 4 倍,功耗卻僅五分之一。

成本端同樣是賣點。根據《IEEE Spectrum》,其一個由 4 個 pod 組成的機櫃在運行 2 兆參數的 LLM 時,可達到每位使用者每秒 1,300 個 token,成本為每百萬 token 11 美元,功耗為 120 千瓦;相較之下,要達到類似的每位使用者每秒 token 吞吐量,需要至少一套 9 個機櫃的 NVIDIA Rubin 與 Groq 3 系統,且依該公司估計可能會消耗約 1.5 兆瓦的電力。換言之,Tensordyne 主打的核心優勢,正是用更低的功耗與每 Token 成本完成大型模型推理。

把乘法變成加法:對數運算的賭注

那麼,這樣的效率從何而來?與多數 AI 晶片公司選擇透過更先進製程、更大記憶體或更多晶片堆疊提升效能不同,Tensordyne 選擇從矩陣運算本身下手,並包含運算架構、機一體與網路等核心層面設計整個 AI 推理技術堆疊。矩陣乘法是大型語言模型執行推理時最核心的運算之一。Tensordyne 的 Napier 晶片利用「對數(Logarithm)運算」特性,將原本需要大量乘法器執行的計算轉換成加法運算。

Tensordyne 共同創辦人暨 AI 副總裁 Gilles Backhus 向《IEEE Spectrum》表示:「我們把乘法器變成了加法器(We’ve turned multipliers into adders)。」原因在於,數學上 log(A×B) 等於 log(A)+log(B)。而相較於乘法器,加法器所需電路面積更小、功耗更低,因此能在相同晶片面積內放入更多運算單元。

這個原理早已為人所知,難的是怎麼用。Backhus 表示,過去在對數與描述神經網路的浮點數之間來回轉換,太耗時、太耗電,也會引入太多誤差;而 Tensordyne 的突破,正是解決了這個關鍵。「到目前為止,沒有人想出像我們這樣做線性轉對數、對數轉線性的方法。」他說,其公司的工程師找到了在晶片上「非常優雅、非常精準且便宜」完成這件事的方式。

事實上,數字格式的重要性 AI 業界也不陌生。《IEEE Spectrum》提到,NVIDIA 首席科學家 Bill Dally 曾在 2023 年的 Hot Chips 會議上,把當時 GPU 改進的大部分歸功於採用更短的數字格式;學界也研究過 posit、takum 等類對數格式,但因其硬體實作與傳統浮點差異太大,始終未能普及。

為何是現在?推理取代訓練成為焦點

Tensordyne 押注推理,呼應了整個產業的重心轉移。《IEEE Spectrum》指出,包括 AI 代理興起在內的市場趨勢,意味著「推理」(即執行神經網路模型)正變得比訓練新的大型語言模型更重要,成本與回應速度開始主導,促使 AI 公司尋找更契合這項任務的系統架構,而 Tensordyne 高層表示,他們早就預見了這一點。

要理解其設計,得先看執行 LLM 的兩個階段。報導說明,第一階段是 prefill,模型接收輸入文字、轉成 token,並建立一種關於輸入的工作記憶(key-value cache),這是運算量很重的任務;第二階段是 decode,模型逐一生成輸出 token,由於每個新 token 都要根據前一個 token 與 key-value cache 來預測,這種序列性質讓 decode 較慢,且更依賴記憶體與網路延遲,而非運算力。

正因兩階段需求不同,晶片業者開始分而治之:NVIDIA 主打用一櫃 B300 GPU 負責 prefill、再用數櫃 Groq 3 處理器負責 decode;AWS 則用一櫃自家 Trainium 晶片做 prefill、搭配數櫃 Cerebras 的晶圓級電腦做 decode。

Tensordyne 的差異化主張,是用單一系統同時應付這兩種需求。「我們是同時為兩個難題進行最佳化,」共同創辦人暨產品長 R.K. Anand 表示,「我們是第一家證明你可以不靠多家供應商、多個機櫃就同時做到這兩件事的公司。」具體而言,prefill 所需的密集運算來自對數數學,decode 的需求則由 144GB 的高頻寬記憶體,以及一套延遲僅 1 微秒的客製網路「Tensordyne Napier Link」來滿足。

數字仍待驗證,背後夥伴與資金到位

不過,Tensordyne 的成效要等到今年稍晚才會有真實系統來驗證;該公司計劃先透過雲端提供 beta 版本供客戶使用,並預計約一年後開始出貨,72 晶片系統的商業銷售則排定在 2027 年下半年。

在落地能力上,Tensordyne 並非單打獨鬥。據《Reuters》報導,Napier 晶片是與 Broadcom 及 HPE 旗下的 Juniper Networks 合作開發,並由全球最大的晶圓代工廠台積電製造,採用 3nm 製程。這家總部位於加州 Sunnyvale 的公司,目標是在生成式 AI 需求激增之際,透過提升推理速度、功耗效率與機櫃密度來緩解 AI 基礎設施的瓶頸。

《Reuters》補充,Tensordyne 成立於 2017 年,原名 Recogni,去年才改名,迄今已從 Celesta Capital、GreatPoint Ventures 與 Juniper Networks 等投資人募得約 1.76 億美元,並準備在今年稍晚進行 D 輪募資。

綜合來看,Tensordyne 的故事不只是「又一家挑戰 NVIDIA」的新創。當它選擇從對數數學重新設計運算、主打更低的功耗與每 Token 成本時,反映的是 AI 基礎設施競爭正從單純堆疊算力的軍備競賽,走向推理經濟學與效率競爭的新階段。只是,這套以數學為賭注的架構究竟能否兌現模擬中的數字,仍得等到真實系統上線後才會揭曉。

【推薦閱讀】

從黑名單到全鏈追蹤:台灣擬將 AI 晶片管制擴大到所有中國客戶,伺服器供應鏈迎合規新考驗

黃仁勳親解 Vera CPU 戰略:這是一個 6 個月前還未存在的市場

從 GPU 主導到 CPU 回溫:Agentic AI 如何改寫企業資料中心配置?

*本文開放合作夥伴轉載,資料來源:《Reuters》《IEEE Spectrum》《Forbes》Tensordyne,首圖來源:

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

美光一人救全村!台股反彈500點 記憶體股大漲

鏡報
02

SpaceX、特斯拉重挫 身家蒸發逾3400億美元 馬斯克跌落「兆萬富翁」寶座

anue鉅亨網
03

遊戲橘子宣布瘦身15%!裁虧損單位、封存新創 全力押注AI

太報
04

台股暴殺千點 專家點「新黑天鵝」出現:盡頭是玄學

EBC 東森新聞
05

台積電副總莊子壽贈與5百張持股給他 市值近12億元

自由電子報
06

AI股重挫台股要逃要接?法人:企業獲利撐腰、台股為AI浪潮核心

太報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...