【美股新聞】Groq LPU或將取代輝達GPU

圖/Shutterstock

放大鏡短評

Groq的語言處理單元（LPU）在性能上確實超出了輝達(NVDA)、超微(AMD) 以及英特爾(INTC)等AI 推理芯片領域主要競爭對手，提供了更豐富的供應量，避免了依賴台積電或 SK 海力士等供應商的風險。然而，有評論指出，Groq的整體成本是 NVIDIA GPU 的30倍之多，考量到Groq晶片的記憶體只有230MB，運行實際模型需使用572片晶片，使得總成本達到1144萬美元。相比之下，使用8片H100的系統在性能上可與Groq系統匹敵，但硬體成本只需30萬美元，加上年電費約2.4萬美元，若以三年計算，總運營成本遠低於Groq系統。

新聞資訊

AI晶片新創公司Groq的突破

Groq，一家人工AI晶片片新創公司，公司創辦人Jonathan Ross是前Google資深工程師，也是Google自研AI晶片TPU的設計者之一，最近以其語言處理單元（LPU）在AI領域取得了重大進展。該公司的LPU專為大型語言模型（LLM）如GPT、Llama和Mistral LLMs設計，基於Tensor-Streaming Processor(TSP)架構，展現了令人印象深刻的性能指標，達到750 TOPS（INT8）和188 TeraFLOPS（FP16），並具有320x320融合點乘矩陣乘法和5,120個向量ALU。擁有80 TB/s的帶寬和230 MB的本地SRAM容量，Groq LPU提供了超快的推理速度，每秒可服務高達480個tokens。

LPU性能與市場競爭

Groq LPU在行業中的性能引人注目，能夠以每秒300個tokens的速度服務Llama 2 70B模型，以及每秒750個tokens服務較小的Llama 2 7B模型。根據LLMPerf排行榜，Groq LPU在推理LLM方面超越了基於GPU的雲服務提供商(如輝達)，於token吞吐量領先並實現了第二低的延遲。這使Groq成為NVIDIA、AMD和Intel等AI推理硬件市場的直接競爭者。

Groq LPU的市場表現

Groq宣布其LPU系統的推理性能為Llama-2 70B模型翻了一番多，現在每用戶運行速度超過240個tokens每秒。公司在各種活動中展示了其LLM的低延遲性能，並將其硬件部署到阿貢國家實驗室的ALCF AI測試床，為全球研究人員提供AI加速器訪問[2]。

此外，Groq的LPU推理引擎在ArtificialAnalysis.ai進行的首個獨立LLM基準測試中領先，超越了八大雲服務提供商的關鍵性能指標。基準測試結果如此出色，以至於必須調整圖表軸以適應Groq的性能水平。Groq的LPU推理引擎通過Groq API提供，為客戶提供Tokens-as-a-Service，用於實驗和生產的應用。

請更新您的瀏覽器

理財

CMoney

放大鏡短評

新聞資訊

AI晶片新創公司Groq的突破

LPU性能與市場競爭

Groq LPU的市場表現