請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

不用 HBM、不靠 3nm!台灣 Skymizer 如何用 28nm 打 AI 推論戰?

TechOrange 科技報橘

更新於 05月11日12:53 • 發布於 05月11日04:47 • 廖紹伶

台灣 AI 晶片設計公司 Skymizer 近日曝光新一代 PCIe AI 加速卡 HTX301,宣稱可在單張卡上執行高達 7000 億參數(700B)的大型語言模型(LLM),且整體功耗僅約 240W。更值得關注的是,這套系統並未使用當前 AI 產業主流的 HBM 高頻寬記憶體,也不是採用 3nm、5nm 等先進製程,而是建立在 28nm 晶片與 LPDDR4/LPDDR5 記憶體之上。

這種反主流設計,很快引發 AI 基礎設施圈關注。因為它挑戰的不只是 NVIDIA 與 AMD,而是整個 AI 晶片產業目前的發展方向。

根據《TechRadar》報導,Skymizer 表示 HTX301 單卡配置 384GB 記憶體,可支援 Agentic AI(代理式 AI)、程式開發與企業專用 AI 工作流,並能部署於一般風冷伺服器中,無需大型資料中心等級的電力與散熱改造。

AI 晶片戰場,正從「拼 FLOPS」轉向「拼記憶體」

過去兩年,AI 晶片市場幾乎被「更大算力」主導。例如 AMD 新推出的 Instinct MI350P PCIe AI 卡,搭載 144GB HBM3E 記憶體與高達 4600 TFLOPS 運算能力;NVIDIA RTX PRO 6000 Blackwell 則採用 GDDR7 記憶體、功耗約 600W。各家 AI 晶片業者都在持續往更高功耗、更高頻寬方向推進。

但根據 Skymizer 官方資料,HTX301 的核心並非追求極限 FLOPS,而是專注在 LLM 推論效率。該公司強調,自己使用大量權重壓縮(weight compression)與 KV cache 壓縮技術,降低記憶體搬移成本,並針對 token decode 階段最佳化。

根據《wccftech》報導,在效能數字上,Skymizer 宣稱 HTX301 以 0.5 TOPS 算力搭配 100GB/s 頻寬,可達到每秒 30 個 token 的生成速度;在八核心 LPU 配置中則能在 Llama2 7B 的 prefill 階段達到每秒 240 個 token;多顆晶片串聯後,同一模型可提升至每秒 1,200 個 token,並支援最大 700B 參數規模的模型推論。

在壓縮技術上,HTX301 架構對模型權重(長期記憶)的壓縮效果比開源 llama.cpp 高出 9% 至 17.8%,KV 快取(短期記憶)的壓縮則在困惑度(perplexity)損失低於 0.06% 至 3.52% 的前提下達成。

推論與預填分離,軟硬體協同設計是核心賭注

Skymizer 的技術路線奠基於一個對 LLM 推論工作負載的明確判斷:prefill(處理輸入提示,屬於運算密集型)與 decode(逐 token 生成輸出,屬於記憶體頻寬密集型)是兩種本質上不同的計算需求,卻在主流 GPU 架構中被強制分配到同一塊晶片上,導致兩個階段在任何給定時刻都有資源被閒置浪費。

HTX301 的設計哲學是針對 decode 階段進行專門優化,由現有 GPU 負責運算密集的 prefill,HTX301 卡則專門處理記憶體頻寬密集的 decode。Skymizer 同時開發了統一軟體堆疊,涵蓋 KV 快取管理器、感知階段的排程器,以及動態配置引擎,負責在 prefill 與 decode 資源池之間協調 KV 快取狀態的跨節點傳遞,並隨工作負載即時調整兩者比例。

Skymizer 技術長 Luba Tang 表示:「針對 decode 設計的專用硬體,搭配能協調所有推論工作負載的智慧軟體堆疊,才是在規模上實現 prefill/decode 分離的方式。」

此外,HTX301 採用 Skymizer 自研的 LISA(語言指令集架構)作為底層 ISA,這套以 Transformer 推論為核心設計的指令集架構,與其邊緣端 LPU 共用相同基礎,意味著從邊緣裝置到小型資料中心,可採用統一的部署流程。

在資料主控權方面,Skymizer 指出雲端推論迫使企業在查詢規模上有所保留,對涉及機密程式碼、客戶資料或專有矽智財的場景尤為不適用。HTX301 瞄準的應用場景,包括 IC 設計公司的私有 RTL 程式碼輔助、金融機構的合規與詐欺偵測、醫療機構的臨床決策支援,以及政府與國防單位的主權 AI 部署。

數字尚待驗證,但新趨勢已經浮現

Skymizer 將在 Computex 2026 正式展示 HTX301,屆時將是外界首次有機會對其宣稱的效能數字進行獨立驗證。目前業界對這類規格聲明普遍持審慎態度,相關媒體報導如《TechRadar》也指出,能否在真實工作負載下兌現每秒 240 個 token 的 Llama2 7B 效能,仍是最關鍵的待解問題。

然而,HTX301 所代表的技術路線本身已具有產業觀察價值。當 AI 推論工作負載快速成長,而通用 GPU 的功耗與成本門檻持續攀升,以 decode 優化為核心的專用推論架構是否正在形成一個獨立的競爭維度,將是 Computex 之後值得持續追蹤的問題。

Skymizer 行銷長 William Wei 表示:「推論已成為主導性的 AI 工作負載,基礎設施的設計必須反映這個現實。超大規模 LLM 需要超大規模 GPU 叢集的時代已經結束。」

【推薦閱讀】

OpenAI 與博通 180 億美元晶片融資卡關:Nexus 計畫要落地,為何還得看 Microsoft 臉色?

化敵為友的百萬瓦級交易:拆解 Anthropic 承租 SpaceX Colossus 1 背後的算力焦慮

從 HBM4 到 Apple 供應鏈備援:三星獲利狂飆 48 倍,AI 正重新定價半導體產業

*本文開放合作夥伴轉載,資料來源:《Wccftech》《TechRadar》《PR Newswire》Skymizer,首圖來源:Skymizer

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

台積電一天賣光!世界先進爆鉅額交易

NOWNEWS今日新聞
02

LED大廠破產清算 8千坪廠房「13億流標」

EBC 東森新聞
03

小吃店誤開多張同號發票!發文求救追不回 中特獎「最少將賠1千萬元」

三立新聞網
04

餐飲也危險?億萬富豪曝「9種行業快撐不住了」:很多公司恐消失

鏡報
05

「小雨傘包包」退出台灣市場!結束20年代理全面撤櫃 粉絲不捨:年輕時超愛買

鏡週刊
06

2850萬股全拋了!蓋茲基金會信託「零持股」微軟 外媒揭背後原因

信傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...