輝達(NVIDIA)今年GB200伺服器即將試產出貨,但今年以來雜音不斷,執行長黃仁勳坦承GPU原生設計有瑕疵,感謝靠台積電協助量產,GB200 AI伺服器機櫃量產也多次傳出散熱設計困難,AI伺服器設計極限步步逼近,產業正醞釀一次大規模破壞式創新。
輝達近兩年研發AI晶片,更自主設計系統機櫃如DGX H100及DGX GB200,將手直接伸向AI伺服器架構設計,AMD今年宣布公開收購美國AI伺服器系統廠ZT,也是劍指伺服器機櫃設計力,這些大廠都意識到,系統機櫃設計難度正大幅提高,台灣伺服器系統業者也展開行動,要與IC設計服務業合作解決AI伺服器系統設計量產問題。
為何國際大廠都看到AI伺服器系統設計重要性?
「半導體要一年設計一款AI晶片並不難,但要把數百個AI加速晶片放在一起,電源、液冷、散熱CDU等技術是否準備好了?未來IC設計持續向前推進,一年一代向前跑,可能到時候(伺服器)出不了貨,機櫃若做到1MW能耗時,散熱怎麼接、電源櫃如何定義?一定會卡住。」廣達集團資深執行副總暨雲達科技總經理楊麒令7日出席TSIA台灣半導體產業年會指出。
鴻海、廣達的輝達GB200 NV36/72機櫃即將量產出貨,但著眼未來有更多先進製程AI晶片未來推出,楊麒令7日登高呼籲台灣應打造AI解決方案生態圈,點名「IC設計服務業者」應該與伺服器系統商密切合作。
楊麒令秀出一張資料中心客戶建置供應鏈環狀圖,將IC設計業者與伺服器系統業者緊緊靠在一起,生態系成員還包括電路板、電源供應、散熱、主機板管理晶片、先進製程IP、晶圓代工業者形成一個閉環,「我們希望能有共同語言!」(Speak the same language)。
楊麒令此話一出,立刻獲得鈺創董事長盧超群為首的半導體業者回應,現場響起熱烈掌聲,為何半導體業如此有感?
「以前是某家偉大的公司做好一顆好棒棒晶片後,交給伺服器系統廠商一份使用說明書,有時有公板設計圖,系統廠拿來改一改測一測就可以用了,但現在AI客製化晶片,開發時間壓縮很緊,跟晶片或客戶端的想法討論或設計驗證很早就展開。」一位不具名伺服器系統高管說。
過去伺服器晶片以英特爾跟AMD為主,如今AI晶片百家爭鳴,客製化設計量提升,而另一大關鍵,是AI晶片算力不斷提升,晶片複雜度前所未有。
未來AI晶片將跨入2奈米,超級晶片結構也會出現變化,CPU或GPU部分採先進製程,而I/O裸晶則用成熟製程並集中化,廣達這樣的角色跟IC設計公司必須做密切的溝通,從最初設計階段將整個系統主板以至於系統、叢集運算架構及資料中心基礎建設都同步規劃,才能加速產業速度。
「AI晶片面積愈來愈大,功耗也越來越大,散熱問題亟待解決,」業者指出,氣冷液冷散熱之外,未來「散熱晶片」技術也將運用,也就是將散熱跟裸晶直接設計貼合在一起,再封裝。
這些新技術對系統廠商而言,除思考晶片如何放在主機板上?雲端服務業者為了運算類工作負載,晶片內放進越來越大容量記憶體,與晶片包在一顆超級晶片中,輸出入(IO)設計越來越複雜,未來晶片腳位怎設計?
「我們對IC設計的電力系統關連雖有做一些客戶基礎研究,但有些部分也遭遇開發困難,深深感覺到其實設計客製化機櫃並不是那麼簡單,」楊麒令指出,「晶片能用」跟「晶片好設計(Layout)」是兩回事,機櫃設計包含很多面向問題。
電源、散熱跟不上,AI伺服器設計極限將逼近
「現在已經逼到ODM系統設計的極限!前後端必須合作,否則整套伺服器開發成本只會越來越貴,週期也越來越長。」一位伺服器高管指出,AI晶片商無法開完一顆晶片,把後續問題交給伺服器系統廠去傷腦筋。
廣達或緯穎等伺服器商十分熟悉電路板、電源、散熱及管理晶片產業鏈,隨NVIDIA一座GPU機櫃塞入72顆GPU,楊麒令反問,若未來可能塞入100多顆甚至200顆,電路板會遇到什麼問題?網路800G時會有什麼問題?當一座機櫃達1MW功耗時電源供應器該如何散熱(NVL72現在最高160KW)?
為滿足AI演算法或特定應用模式,未來晶片設計結構也有大改變,愈來愈多AI晶片客戶以小晶片(Chiplet)或3DIC將記憶體與邏輯IC整合製造,加快晶片開發速度並降低成本。
「過去2~3年台積電在技術發展領先,晶片設計跟製造技術飛速成長,但傳統產業技術的進度沒有想像中的快,」楊麒令指的傳統產業包括電源供應器及散熱系統, 他認為此刻產業必須思考「資料中心其他生態系接得上接不上?」晶片設計時就必須思考系統組裝到軟硬體整合所需的環境,否則資料中心發展將遭遇困難。
Arm北美業務副總裁曾志光指出,目前全球有50多家AI加速晶片業者,多專注自身晶片效能,忽略或甚至沒想過在系統端的搭配(跟什麼CPU搭配?主機板設計或記憶體控制?散熱?),他也觀察AI加速晶片開發多集中歐美,台灣跟日本較少,比較可惜。
伺服器系統業者掌握從機櫃、叢集運算、甚至AI資料中心基礎建設設計架構,累積能源管理軟體的基礎架構及工作負載規劃知識,楊麒令期望半導體業一起合作知識交流,將有助於讓AI伺服器產業鏈中傳統科技業也跟得上IC設計業的開發速度,當個生態系成員有共識,AI伺服器產業將創造一個新的典範轉移。