請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

【關鍵趨勢】輝達最新GPU架構 – Blackwell,五大特色讓AMD及英特爾望塵莫及!有望推動下一波獲利!?

CMoney

發布於 2024年04月26日09:55 • 任芸葶

圖/Shutterstock

GTC大會重點一次看,輝達最新技術發表你知道了嗎

AI 晶片設計巨頭輝達 Nvidia (NVDA)於台灣時間3月19日的凌晨舉辦了一年一度的 GTC 大會,由輝達執行長黃仁勳主講,除了發表最新的 AI 晶片技術與相關系統外等,還透露公司的策略布局,尤其是在 AI 車載電腦與人形機器人技術等領域,也因此該展會受到許多市場關注,而在 AI 晶片的布局中最令人吸睛的便是下一代 B 系列晶片的發表,因此本文將帶領你們了解新晶片的規格跟效能究竟有何特別之處。

Blackwell 架構 GPU 配備 2080 億個電晶體,圖形和視覺處理能力大幅增強

輝達於 GTC 大會推出最新的 Blackwell 架構,以美國統計學家 David Harold Blackwell 命名,將接替 Hopper 架構。輝達執行長黃仁勳強調,生成式 AI 是這時代的決定性技術,Blackwell GPU 將作為新工業革命的核心引擎。該 GPU 裝載了2080億個電晶體,採用台積電的4奈米製程,通過 10TB/秒 的晶片到晶片互連技術連接成單一的 GPU,而當多個 GPU 需要共同工作來訓練或運行一個大型模型時,這些晶片之間的互連技術必須足夠高效,以確保數據可以快速且準確地在晶片間傳輸。

基於此架構,輝達計劃推出 B100、B200 兩種晶片版本,該模組封裝中都有兩個 Blackwell 晶片,使得性能大幅提升。此外,還發布了目前市面上的「最強晶片」GB200,該晶片結合了兩個 B200 GPU 和一個 Grace Arm 伺服器 CPU,有望為 AI 晶片寫下新的歷史。而這些產品預計於 2024 年底上市,2025 年實現量產,並成為市場主流,同時實現成本與能耗比的大幅優化。

輝達晶片超級比一比,最新晶片有那些技術上的突破?

  • 特色一:電晶體數量增加至 H100 的 2.6 倍

首先要提到的第一個特色是,Blackwell 系列顯著提高了電晶體數量的裝載量。 B100 與 B200 GPU 皆由兩個晶片所組成,總電晶體數量為 2080 億顆,即每個單一晶片電晶體量 1040 億顆,較 H100 多了大約 30% 的電晶體量,而電晶體數量的增加將支持更高的圖形解析度和更複雜的渲染算法,大幅改善圖形和視覺處理能力,是 Blackwell GPU 的一大躍進。以目前超微 AMD (AMD) 所發布的最新 GPU MI300X 作為對比,該晶片裝載 1530 億個電晶體數量,雖較目前輝達的 H 系列 GPU 多,卻仍無法媲美搭載兩顆晶片的 B 系列 GPU,而英特爾 Intel (INTC) 則未提供最新 GPU Gaudi 3 的電晶體數量做為參考,推估為上一代 Gaudi 2 的兩倍量。

  • 特色二:記憶體規格採用 8 堆疊的 HBM3e

Blackwell 系列 GPU 內含兩顆晶片 ,每個晶片都與 4 個 HBM3e 記憶體堆疊配對,總共 8 個堆疊,且每個堆疊有 8 層,形成 8192 位元的有效記憶體匯流排寬度。所有人工智慧加速器的限制因素之一是記憶體容量,目前市面上的單一記憶體技術是無法負荷GPU的運算量的,因此能夠放置更多堆疊對於提高記憶體效能十分重要。總而言之,B100 GPU 提供高達 192GB 的 HBM3e,即每堆疊容量 24GB,比原來的每堆疊容量 16GB 的 H100 多出 50% 的記憶體。

此外,B100 與 B200 晶片的 HBM 記憶體總頻寬為 8TB/秒,每個堆疊的頻寬為 1TB/秒,即每個引腳的數據速率為 8Gbps。而頻寬越高,意味著每秒能執行更大的傳輸量,而目前 B100 提高的水準,幾乎是 H100 記憶體頻寬的 2.4 倍,可以看出 Blackwell 系列晶片在記憶體上的顯著突破。

同樣,我們以 MI300X 及 Gaudi 3 作為實驗組,前者在記憶體容量上,與 Blackwell 系列晶片打得有來有往,而在傳輸量與速度上則介在B系列與H系列之間。而 Gaudi 3 表現的就比較不盡人意了,整體看起來仍處在 H100 至 H200 左右的位階,稍顯劣勢。

更多HBM內容看這邊:【關鍵趨勢】HBM催化劑帶動記憶體產業需求一飛衝天,現在上車還來得及!三大公司爭先恐後,誰將拔得頭籌!?

  • 特色三:第二代轉換器引擎支持更低精度運算,減少資料處理時間

輝達的 Hopper 架構中,加入了轉換器引擎 (Transformer Engine),允許混合高精度 (FP16) 和低精度 (FP8) 操作,在這裡幫大家補充一下,這裡的精度是指在計算時的浮點數 (float) 會精細至小數點後幾位數,越精細的運算往往會需要較多的處理時間,因此這種混和型操作可以減少記憶體需求並提高處理速度,並實際在 GPT-3/ChatGPT 應用上取得了卓越的成功。而在 Blackwell 系列晶片,輝達進一步開發了第二代轉換器引擎,以支持更低的精度,包括 FP4 和 FP6 精度。FP4精度非常低,僅有 16 種狀態,主要用於推論階段(inference)。雖然 FP6 精度沒有比 FP8 更好的計算性能,但由於數據大小減少25%,仍然能夠減輕記憶體壓力和提高頻寬。

MI300X 與 Gaudi 3 皆未支持 FP4 精度的運算,因此在運算效率上恐落後輝達的 Blackwell GPU,雖在某些複雜精度的運算上表現與 B100 有得一拚,然而當對比對象來到 B200 時,就僅能被拋之腦後了。此外,Gaudi 3 並未支援稀疏矩陣運算,所謂的稀疏矩陣是一種矩陣,其中大多數元素的值為零或者不包含信息,因此可以運用特殊算法去省略計算步驟,加快處理速度,也因此 Gaudi 3 在進行大型語言模型微調的時候,運算效率恐較差。

  • 特色四:第五代 NVLink 技術提高總數據傳輸量

從硬體角度來看,除了使用更多張量核心提高運算能力,和更多記憶體頻寬提高傳輸能力之外,GPU 效能的另一大關鍵因素便是互連頻寬,而輝達專有的 NVLink 也一直是該公司至今在市場上無可匹敵的關鍵要素之一。在 Blackwell 系列NVLink 將更新至第五代,相比於 H100 所使用的 NVLink 4,頻寬從每個 GPU 900GB/秒 增加了一倍,達到每個 GPU 1800GB/秒。由於輝達在 Blackwell 系列將 GPU 上的晶片數量增加了一倍,同時也將互連頻寬增加了一倍,因此流入每個晶片的資料量並沒有改變。但是,由於兩個晶片需要作為單一處理器一起工作,因此整體而言可運算的數據總量顯著增加。

儘管頻寬增加了一倍,每個 GPU 的 NVLink 數量都沒有改變。GH100 Hopper 的 NVLink 容量為18個鏈接,Blackwell GPU 的 NVLink 容量也是 18 個鏈接。因此,NVLink 5 帶來的所有頻寬增益都是來自於每對高速鏈路的更高訊號傳輸速率 – 200Gbps。

  • 特色五:內含兩顆GPU使得晶片尺寸

新系列晶片的尺寸將比先前所設計的來得更大,因為該模組計畫在單一封裝上配備兩個 GPU 晶片,以實現更高的運算能力,預計 B100 晶片尺寸將成長至 H100 的 2 倍。儘管如此,輝達 並沒有為 Blackwell 使用台積電最先進的 3 奈米技術,而是選擇了 4NP 製程節點 ,雖優於台積電為輝達定製並使用在 GH100 的 4N 製程節點,但仍同屬 4 奈米技術位階。而由於前一代的 GH100 晶片已經接近台積電 4 奈米工藝的製作極限,所以輝達這次在晶片尺寸上擴展的空間已經不多。因此,可以看出此次晶片效能的進步,更多是歸功於架構本身效率,而非新製程節點所提供的效能和密度優勢。

效能高的同時價格也較高,不過較上代 GPU 差異不算太大

最後是針對價格的部分,公司雖未有明確透透,但先前黃仁勳在接受採訪時,曾透漏每塊 B200 的價格將介於3至4萬美元之間,對比 H 系列的 2.4 萬美元,並未有太大的漲幅,且當時 H100 的推出引起市場上很大的轟動,再加上先進封裝產能供不應求,H100 供應嚴重不足,以至於市場上的銷售價格提升至 3 萬至 4 萬美元,可見目前輝達對 Blackwell GPU的訂價仍具備合理性,甚至可說是相對便宜的。據美國投行分析師預估輝達製造一塊 B200 晶片的成本約為 6,000 美元,而 H100 成本則約 3,100 美元,毛利率高達 80%~85%,且以目前市場上的需求成長,與輝達 Blackwell 系列所提升的效能來看,預計將再進一步帶來可觀獲利。AMD MI300X 以 1 萬美元的售價提供給微軟,而對於其他消費者價格則落在 1萬5 以上,約為輝達晶片價格的 1/2 至 1/3 倍。而英特爾 Gaudi 3 則未詳細透漏,已知 Gaudi 2 約落在 1萬5 左右,推估 Gaudi 3 應落在 1萬5 至 2 萬左右。

最主要的缺點是高電力成本

B200 和 GB200 模型在耗電方面都相對較高。B200 的熱設計功率 (TDP) 為 1000 瓦,且其設計無法與現有的 H100 系統直接相容,需要圍繞其建構新的系統。相比之下,GB200 的電力成本更為顯著,其模組配置包括兩個 GPU 和一個高效能的板載 CPU,運行功率高達 2700 瓦,是 GH200 的最高可配置 TDP 的 2.7 倍。假設 Grace CPU 的 TDP 為 300 瓦,則每個 Blackwell GPU 的 TDP 約為 1200 瓦,顯示了在取得顯著性能提升的同時,也伴隨著更高的功耗。

然而,對於那些顧慮高耗電的客戶,輝達提供了一個相對不耗電的選擇:B100。HGX B100 模組的設計與 HGX H100 模組兼容,每個 GPU 的 TDP 均為 700 瓦,是 Blackwell 加速器中耗電最少的一款,雖然在浮點運算能力上較 B200 稍弱,但整體計算性能預計能達到 B200 的 78% 左右。儘管 B100 是 Blackwell 系列中性能最低的,但 B100 在相同精度下可提供較 H100 GPU 高約 80% 的運算吞吐量,並且在 HBM3e 記憶體的容量與運輸速度上亦有所提升,整體而言仍是消費者一個不錯的選擇。MI300X 耗電量較 H 系列 GPU 與 B100 高,而 Gaudi 3 的耗電量則逼近 B200,達到 900 瓦。

輝達在技術上無可匹敵,新晶片祭出有望進一步提升市場地位

輝達此次公布的 Blackwell GPU 無疑是給市場投下了一顆震撼彈,雖預計至明年才開始量產,卻已受到市場上十分多的關注,在多處設計上性能皆有所提升,而對比目前市場上另外兩家 GPU 大廠 – AMD 與英特爾,其最新產品分別為 MI300X 與 Gaudi 3,整體而言輝達在技術等多個層面皆領先許多,也因此造就了輝達在市場上強大的定價能力。不過輝達的缺點應聚焦在其較高的價格,與較大的耗電量,因此對於部分消費者來說,可能較難以負擔,不過 CMoney 研究團隊仍認為,正如 H100 時期所像我們證明的,在性能的支撐下,價格仍不是主導因素,且微軟和谷歌等科技大廠在本季財報公布紛紛上調對 AI 晶片相關的資本支出,因此看好 Blackwell GPU 為輝達帶來的訂單量與獲利成長,長期仍能手握 GPU 霸主的地位。

而至於 AMD 與英特爾,雖在 Blackwell 的推出後,兩家公司的技術較為落後,但以其優越的價格優勢,加上目前 GPU 市場仍屬供不應求,要攻佔低價市場仍是有機會的,尤其是 MI300X 看起來性能上與性價比上皆優於 Gaudi 3,可能又提供了其在市場上較高的優勢,因次對比之下,更看好 AMD 在中低價位 GPU 市場的獲利能力。

原始文章:

https://cmy.tw/00BhHm

延伸閱讀:

【美股研究報告】Meta 2024年獲利成長恐不如預期,盤後股價暴跌逾13% 是進場機會嗎?

【美股研究報告】ASML 24Q1訂單大幅減少,台積電訂單加持下將重返榮耀?

【關鍵趨勢】HBM催化劑帶動記憶體產業需求一飛衝天,現在上車還來得及!三大公司爭先恐後,誰將拔得頭籌!?

【產業動態】AI勢不可擋,X86、ARM、RISC-V三大CPU架構誰將成為市場主流?

【產業動態】一文看懂AI PC關鍵硬體,NPU市場:Intel、AMD 、Qualcomm膠著、Apple坐板凳

美股放大鏡

版權聲明

本文章之版權屬撰文者與 CMoney 全曜財經,未經許可嚴禁轉載,否則不排除訢諸法律途徑。

免責宣言

本網站所提供資訊僅供參考,並無任何推介買賣之意,投資人應自行承擔交易風險。

查看原始文章

更多理財相關文章

01

台灣最大LNG來源出事?卡達設施遇襲停產

NOWNEWS今日新聞
02

降價求售變多了!30年華廈開價1250萬 「砍到56折」才成交

TVBS
03

全台10大最好殺價區域曝光,桃園大園、台中清水…這裡議價率居冠!房價回歸理性:有談有機會

今周刊
04

亞洲業績慘跌拖累 GUESS將關閉所有中國直營門市

anue鉅亨網
05

把錢花完再死吧!擁650萬+4.8萬月退,仍憂「比存款活得久」…他們不交際、不旅行,70後悔度餘生

幸福熟齡 X 今周刊
06

沒人領!高雄今彩539頭獎800萬 今逾期充公

NOWNEWS今日新聞
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...