請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

【關鍵趨勢】輝達最新GPU架構 – Blackwell,五大特色讓AMD及英特爾望塵莫及!有望推動下一波獲利!?

CMoney

發布於 04月26日09:55 • 任芸葶
【關鍵趨勢】輝達最新GPU架構 – Blackwell,五大特色讓AMD及英特爾望塵莫及!有望推動下一波獲利!?

圖/Shutterstock

GTC大會重點一次看,輝達最新技術發表你知道了嗎

AI 晶片設計巨頭輝達 Nvidia (NVDA)於台灣時間3月19日的凌晨舉辦了一年一度的 GTC 大會,由輝達執行長黃仁勳主講,除了發表最新的 AI 晶片技術與相關系統外等,還透露公司的策略布局,尤其是在 AI 車載電腦與人形機器人技術等領域,也因此該展會受到許多市場關注,而在 AI 晶片的布局中最令人吸睛的便是下一代 B 系列晶片的發表,因此本文將帶領你們了解新晶片的規格跟效能究竟有何特別之處。

Blackwell 架構 GPU 配備 2080 億個電晶體,圖形和視覺處理能力大幅增強

輝達於 GTC 大會推出最新的 Blackwell 架構,以美國統計學家 David Harold Blackwell 命名,將接替 Hopper 架構。輝達執行長黃仁勳強調,生成式 AI 是這時代的決定性技術,Blackwell GPU 將作為新工業革命的核心引擎。該 GPU 裝載了2080億個電晶體,採用台積電的4奈米製程,通過 10TB/秒 的晶片到晶片互連技術連接成單一的 GPU,而當多個 GPU 需要共同工作來訓練或運行一個大型模型時,這些晶片之間的互連技術必須足夠高效,以確保數據可以快速且準確地在晶片間傳輸。

基於此架構,輝達計劃推出 B100、B200 兩種晶片版本,該模組封裝中都有兩個 Blackwell 晶片,使得性能大幅提升。此外,還發布了目前市面上的「最強晶片」GB200,該晶片結合了兩個 B200 GPU 和一個 Grace Arm 伺服器 CPU,有望為 AI 晶片寫下新的歷史。而這些產品預計於 2024 年底上市,2025 年實現量產,並成為市場主流,同時實現成本與能耗比的大幅優化。

輝達晶片超級比一比,最新晶片有那些技術上的突破?

  • 特色一:電晶體數量增加至 H100 的 2.6 倍

首先要提到的第一個特色是,Blackwell 系列顯著提高了電晶體數量的裝載量。 B100 與 B200 GPU 皆由兩個晶片所組成,總電晶體數量為 2080 億顆,即每個單一晶片電晶體量 1040 億顆,較 H100 多了大約 30% 的電晶體量,而電晶體數量的增加將支持更高的圖形解析度和更複雜的渲染算法,大幅改善圖形和視覺處理能力,是 Blackwell GPU 的一大躍進。以目前超微 AMD (AMD) 所發布的最新 GPU MI300X 作為對比,該晶片裝載 1530 億個電晶體數量,雖較目前輝達的 H 系列 GPU 多,卻仍無法媲美搭載兩顆晶片的 B 系列 GPU,而英特爾 Intel (INTC) 則未提供最新 GPU Gaudi 3 的電晶體數量做為參考,推估為上一代 Gaudi 2 的兩倍量。

  • 特色二:記憶體規格採用 8 堆疊的 HBM3e

Blackwell 系列 GPU 內含兩顆晶片 ,每個晶片都與 4 個 HBM3e 記憶體堆疊配對,總共 8 個堆疊,且每個堆疊有 8 層,形成 8192 位元的有效記憶體匯流排寬度。所有人工智慧加速器的限制因素之一是記憶體容量,目前市面上的單一記憶體技術是無法負荷GPU的運算量的,因此能夠放置更多堆疊對於提高記憶體效能十分重要。總而言之,B100 GPU 提供高達 192GB 的 HBM3e,即每堆疊容量 24GB,比原來的每堆疊容量 16GB 的 H100 多出 50% 的記憶體。

此外,B100 與 B200 晶片的 HBM 記憶體總頻寬為 8TB/秒,每個堆疊的頻寬為 1TB/秒,即每個引腳的數據速率為 8Gbps。而頻寬越高,意味著每秒能執行更大的傳輸量,而目前 B100 提高的水準,幾乎是 H100 記憶體頻寬的 2.4 倍,可以看出 Blackwell 系列晶片在記憶體上的顯著突破。

同樣,我們以 MI300X 及 Gaudi 3 作為實驗組,前者在記憶體容量上,與 Blackwell 系列晶片打得有來有往,而在傳輸量與速度上則介在B系列與H系列之間。而 Gaudi 3 表現的就比較不盡人意了,整體看起來仍處在 H100 至 H200 左右的位階,稍顯劣勢。

更多HBM內容看這邊:【關鍵趨勢】HBM催化劑帶動記憶體產業需求一飛衝天,現在上車還來得及!三大公司爭先恐後,誰將拔得頭籌!?

  • 特色三:第二代轉換器引擎支持更低精度運算,減少資料處理時間

輝達的 Hopper 架構中,加入了轉換器引擎 (Transformer Engine),允許混合高精度 (FP16) 和低精度 (FP8) 操作,在這裡幫大家補充一下,這裡的精度是指在計算時的浮點數 (float) 會精細至小數點後幾位數,越精細的運算往往會需要較多的處理時間,因此這種混和型操作可以減少記憶體需求並提高處理速度,並實際在 GPT-3/ChatGPT 應用上取得了卓越的成功。而在 Blackwell 系列晶片,輝達進一步開發了第二代轉換器引擎,以支持更低的精度,包括 FP4 和 FP6 精度。FP4精度非常低,僅有 16 種狀態,主要用於推論階段(inference)。雖然 FP6 精度沒有比 FP8 更好的計算性能,但由於數據大小減少25%,仍然能夠減輕記憶體壓力和提高頻寬。

MI300X 與 Gaudi 3 皆未支持 FP4 精度的運算,因此在運算效率上恐落後輝達的 Blackwell GPU,雖在某些複雜精度的運算上表現與 B100 有得一拚,然而當對比對象來到 B200 時,就僅能被拋之腦後了。此外,Gaudi 3 並未支援稀疏矩陣運算,所謂的稀疏矩陣是一種矩陣,其中大多數元素的值為零或者不包含信息,因此可以運用特殊算法去省略計算步驟,加快處理速度,也因此 Gaudi 3 在進行大型語言模型微調的時候,運算效率恐較差。

  • 特色四:第五代 NVLink 技術提高總數據傳輸量

從硬體角度來看,除了使用更多張量核心提高運算能力,和更多記憶體頻寬提高傳輸能力之外,GPU 效能的另一大關鍵因素便是互連頻寬,而輝達專有的 NVLink 也一直是該公司至今在市場上無可匹敵的關鍵要素之一。在 Blackwell 系列NVLink 將更新至第五代,相比於 H100 所使用的 NVLink 4,頻寬從每個 GPU 900GB/秒 增加了一倍,達到每個 GPU 1800GB/秒。由於輝達在 Blackwell 系列將 GPU 上的晶片數量增加了一倍,同時也將互連頻寬增加了一倍,因此流入每個晶片的資料量並沒有改變。但是,由於兩個晶片需要作為單一處理器一起工作,因此整體而言可運算的數據總量顯著增加。

儘管頻寬增加了一倍,每個 GPU 的 NVLink 數量都沒有改變。GH100 Hopper 的 NVLink 容量為18個鏈接,Blackwell GPU 的 NVLink 容量也是 18 個鏈接。因此,NVLink 5 帶來的所有頻寬增益都是來自於每對高速鏈路的更高訊號傳輸速率 – 200Gbps。

  • 特色五:內含兩顆GPU使得晶片尺寸

新系列晶片的尺寸將比先前所設計的來得更大,因為該模組計畫在單一封裝上配備兩個 GPU 晶片,以實現更高的運算能力,預計 B100 晶片尺寸將成長至 H100 的 2 倍。儘管如此,輝達 並沒有為 Blackwell 使用台積電最先進的 3 奈米技術,而是選擇了 4NP 製程節點 ,雖優於台積電為輝達定製並使用在 GH100 的 4N 製程節點,但仍同屬 4 奈米技術位階。而由於前一代的 GH100 晶片已經接近台積電 4 奈米工藝的製作極限,所以輝達這次在晶片尺寸上擴展的空間已經不多。因此,可以看出此次晶片效能的進步,更多是歸功於架構本身效率,而非新製程節點所提供的效能和密度優勢。

效能高的同時價格也較高,不過較上代 GPU 差異不算太大

最後是針對價格的部分,公司雖未有明確透透,但先前黃仁勳在接受採訪時,曾透漏每塊 B200 的價格將介於3至4萬美元之間,對比 H 系列的 2.4 萬美元,並未有太大的漲幅,且當時 H100 的推出引起市場上很大的轟動,再加上先進封裝產能供不應求,H100 供應嚴重不足,以至於市場上的銷售價格提升至 3 萬至 4 萬美元,可見目前輝達對 Blackwell GPU的訂價仍具備合理性,甚至可說是相對便宜的。據美國投行分析師預估輝達製造一塊 B200 晶片的成本約為 6,000 美元,而 H100 成本則約 3,100 美元,毛利率高達 80%~85%,且以目前市場上的需求成長,與輝達 Blackwell 系列所提升的效能來看,預計將再進一步帶來可觀獲利。AMD MI300X 以 1 萬美元的售價提供給微軟,而對於其他消費者價格則落在 1萬5 以上,約為輝達晶片價格的 1/2 至 1/3 倍。而英特爾 Gaudi 3 則未詳細透漏,已知 Gaudi 2 約落在 1萬5 左右,推估 Gaudi 3 應落在 1萬5 至 2 萬左右。

最主要的缺點是高電力成本

B200 和 GB200 模型在耗電方面都相對較高。B200 的熱設計功率 (TDP) 為 1000 瓦,且其設計無法與現有的 H100 系統直接相容,需要圍繞其建構新的系統。相比之下,GB200 的電力成本更為顯著,其模組配置包括兩個 GPU 和一個高效能的板載 CPU,運行功率高達 2700 瓦,是 GH200 的最高可配置 TDP 的 2.7 倍。假設 Grace CPU 的 TDP 為 300 瓦,則每個 Blackwell GPU 的 TDP 約為 1200 瓦,顯示了在取得顯著性能提升的同時,也伴隨著更高的功耗。

然而,對於那些顧慮高耗電的客戶,輝達提供了一個相對不耗電的選擇:B100。HGX B100 模組的設計與 HGX H100 模組兼容,每個 GPU 的 TDP 均為 700 瓦,是 Blackwell 加速器中耗電最少的一款,雖然在浮點運算能力上較 B200 稍弱,但整體計算性能預計能達到 B200 的 78% 左右。儘管 B100 是 Blackwell 系列中性能最低的,但 B100 在相同精度下可提供較 H100 GPU 高約 80% 的運算吞吐量,並且在 HBM3e 記憶體的容量與運輸速度上亦有所提升,整體而言仍是消費者一個不錯的選擇。MI300X 耗電量較 H 系列 GPU 與 B100 高,而 Gaudi 3 的耗電量則逼近 B200,達到 900 瓦。

輝達在技術上無可匹敵,新晶片祭出有望進一步提升市場地位

輝達此次公布的 Blackwell GPU 無疑是給市場投下了一顆震撼彈,雖預計至明年才開始量產,卻已受到市場上十分多的關注,在多處設計上性能皆有所提升,而對比目前市場上另外兩家 GPU 大廠 – AMD 與英特爾,其最新產品分別為 MI300X 與 Gaudi 3,整體而言輝達在技術等多個層面皆領先許多,也因此造就了輝達在市場上強大的定價能力。不過輝達的缺點應聚焦在其較高的價格,與較大的耗電量,因此對於部分消費者來說,可能較難以負擔,不過 CMoney 研究團隊仍認為,正如 H100 時期所像我們證明的,在性能的支撐下,價格仍不是主導因素,且微軟和谷歌等科技大廠在本季財報公布紛紛上調對 AI 晶片相關的資本支出,因此看好 Blackwell GPU 為輝達帶來的訂單量與獲利成長,長期仍能手握 GPU 霸主的地位。

而至於 AMD 與英特爾,雖在 Blackwell 的推出後,兩家公司的技術較為落後,但以其優越的價格優勢,加上目前 GPU 市場仍屬供不應求,要攻佔低價市場仍是有機會的,尤其是 MI300X 看起來性能上與性價比上皆優於 Gaudi 3,可能又提供了其在市場上較高的優勢,因次對比之下,更看好 AMD 在中低價位 GPU 市場的獲利能力。

原始文章:

https://cmy.tw/00BhHm

延伸閱讀:

【美股研究報告】Meta 2024年獲利成長恐不如預期,盤後股價暴跌逾13% 是進場機會嗎?

【美股研究報告】ASML 24Q1訂單大幅減少,台積電訂單加持下將重返榮耀?

【關鍵趨勢】HBM催化劑帶動記憶體產業需求一飛衝天,現在上車還來得及!三大公司爭先恐後,誰將拔得頭籌!?

【產業動態】AI勢不可擋,X86、ARM、RISC-V三大CPU架構誰將成為市場主流?

【產業動態】一文看懂AI PC關鍵硬體,NPU市場:Intel、AMD 、Qualcomm膠著、Apple坐板凳

美股放大鏡
美股放大鏡

版權聲明

本文章之版權屬撰文者與 CMoney 全曜財經,未經許可嚴禁轉載,否則不排除訢諸法律途徑。

免責宣言

本網站所提供資訊僅供參考,並無任何推介買賣之意,投資人應自行承擔交易風險。

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0