理財

輝達 Blackwell 過熱問題「太誇大」,專家稱已解決

科技新報
更新於 13小時前 • 發布於 14小時前

綜合外媒 Business Insider、Tom′s Hardware 報導,有關 NVIDIA GB200 NVL72 伺服器機架過熱問題被誇大了,其實 Blackwell 散熱設計問題已解決。

Semianalysis 首席分析師 Dylan Patel 向 Business Insider 表示,Blackwell 設計問題已存在數月之久,目前基本上已解決,過熱問題被誇大了。

廣告(請繼續閱讀本文)

引發多間供應商返工的冷卻系統問題只是輕微改變,不過 Blackwell 的冷卻故障對 NVIDIA 大型 72 個伺服器機架尤其成問題,耗電量可達 120kW。

由於機架設計缺陷,NVIDIA 必須重新評估設計,原因是機架內 GPU 過熱,導致 GB200 硬體出貨出現問題,設計變更也造成額外延後。

NVIDIA B200 是適用 AI 工作負載最強大的處理晶片。以 GB200 超級晶片為例,可配置的 TDP 高達數千瓦,峰值定額功率達 2,700 瓦;然而,這使空氣冷卻幾乎無法在標準機架安裝規格下使用,公司最新 Blackwell GPU 必須改採液冷技術,連同資料中心都必須改造其伺服器場,以容納支援液冷伺服器所需的基礎設施。

廣告(請繼續閱讀本文)

雖然 NVIDIA 可藉由製造速度較慢的氣冷式 GPU 解決問題,但為了 AI GPU 軍備競賽保持領先地位,NVIDIA 仍不計成本將效能放在首位,這也是為何輝達選擇製造需要數千瓦電力的 GPU 犧牲氣冷的原因。

NVIDIA 72 個 Blackwell 散熱問題顯然是小問題,並已解決,目前只有 NVIDIA 旗艦 72 個處理器伺服器機架出現問題。

(首圖來源:NVIDIA

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章