請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

AI 伺服器極限逼近 廣達喊話 IC 設計業合作為何獲掌聲?

經濟日報

更新於 2024年11月08日06:48 • 發布於 2024年11月08日03:36
鴻海精密工業股份有限公司上午舉行113年股東常會,並展出搭載輝達GB200晶片的AI伺服器。記者葉信菉/攝影

輝達(NVIDIA)今年GB200伺服器即將試產出貨,但今年以來雜音不斷,執行長黃仁勳坦承GPU原生設計有瑕疵,感謝靠台積電協助量產,GB200 AI伺服器機櫃量產也多次傳出散熱設計困難,AI伺服器設計極限步步逼近,產業正醞釀一次大規模破壞式創新。

輝達近兩年研發AI晶片,更自主設計系統機櫃如DGX H100及DGX GB200,將手直接伸向AI伺服器架構設計,AMD今年宣布公開收購美國AI伺服器系統廠ZT,也是劍指伺服器機櫃設計力,這些大廠都意識到,系統機櫃設計難度正大幅提高,台灣伺服器系統業者也展開行動,要與IC設計服務業合作解決AI伺服器系統設計量產問題。

為何國際大廠都看到AI伺服器系統設計重要性?

「半導體要一年設計一款AI晶片並不難,但要把數百個AI加速晶片放在一起,電源、液冷、散熱CDU等技術是否準備好了?未來IC設計持續向前推進,一年一代向前跑,可能到時候(伺服器)出不了貨,機櫃若做到1MW能耗時,散熱怎麼接、電源櫃如何定義?一定會卡住。」廣達集團資深執行副總暨雲達科技總經理楊麒令7日出席TSIA台灣半導體產業年會指出。

鴻海、廣達的輝達GB200 NV36/72機櫃即將量產出貨,但著眼未來有更多先進製程AI晶片未來推出,楊麒令7日登高呼籲台灣應打造AI解決方案生態圈,點名「IC設計服務業者」應該與伺服器系統商密切合作。

楊麒令秀出一張資料中心客戶建置供應鏈環狀圖,將IC設計業者與伺服器系統業者緊緊靠在一起,生態系成員還包括電路板、電源供應、散熱、主機板管理晶片、先進製程IP、晶圓代工業者形成一個閉環,「我們希望能有共同語言!」(Speak the same language)。

楊麒令此話一出,立刻獲得鈺創董事長盧超群為首的半導體業者回應,現場響起熱烈掌聲,為何半導體業如此有感?

「以前是某家偉大的公司做好一顆好棒棒晶片後,交給伺服器系統廠商一份使用說明書,有時有公板設計圖,系統廠拿來改一改測一測就可以用了,但現在AI客製化晶片,開發時間壓縮很緊,跟晶片或客戶端的想法討論或設計驗證很早就展開。」一位不具名伺服器系統高管說。

過去伺服器晶片以英特爾跟AMD為主,如今AI晶片百家爭鳴,客製化設計量提升,而另一大關鍵,是AI晶片算力不斷提升,晶片複雜度前所未有。

未來AI晶片將跨入2奈米,超級晶片結構也會出現變化,CPU或GPU部分採先進製程,而I/O裸晶則用成熟製程並集中化,廣達這樣的角色跟IC設計公司必須做密切的溝通,從最初設計階段將整個系統主板以至於系統、叢集運算架構及資料中心基礎建設都同步規劃,才能加速產業速度。

「AI晶片面積愈來愈大,功耗也越來越大,散熱問題亟待解決,」業者指出,氣冷液冷散熱之外,未來「散熱晶片」技術也將運用,也就是將散熱跟裸晶直接設計貼合在一起,再封裝。

這些新技術對系統廠商而言,除思考晶片如何放在主機板上?雲端服務業者為了運算類工作負載,晶片內放進越來越大容量記憶體,與晶片包在一顆超級晶片中,輸出入(IO)設計越來越複雜,未來晶片腳位怎設計?

「我們對IC設計的電力系統關連雖有做一些客戶基礎研究,但有些部分也遭遇開發困難,深深感覺到其實設計客製化機櫃並不是那麼簡單,」楊麒令指出,「晶片能用」跟「晶片好設計(Layout)」是兩回事,機櫃設計包含很多面向問題。

電源、散熱跟不上,AI伺服器設計極限將逼近

「現在已經逼到ODM系統設計的極限!前後端必須合作,否則整套伺服器開發成本只會越來越貴,週期也越來越長。」一位伺服器高管指出,AI晶片商無法開完一顆晶片,把後續問題交給伺服器系統廠去傷腦筋。

廣達或緯穎等伺服器商十分熟悉電路板、電源、散熱及管理晶片產業鏈,隨NVIDIA一座GPU機櫃塞入72顆GPU,楊麒令反問,若未來可能塞入100多顆甚至200顆,電路板會遇到什麼問題?網路800G時會有什麼問題?當一座機櫃達1MW功耗時電源供應器該如何散熱(NVL72現在最高160KW)?

為滿足AI演算法或特定應用模式,未來晶片設計結構也有大改變,愈來愈多AI晶片客戶以小晶片(Chiplet)或3DIC將記憶體與邏輯IC整合製造,加快晶片開發速度並降低成本。

「過去2~3年台積電在技術發展領先,晶片設計跟製造技術飛速成長,但傳統產業技術的進度沒有想像中的快,」楊麒令指的傳統產業包括電源供應器及散熱系統, 他認為此刻產業必須思考「資料中心其他生態系接得上接不上?」晶片設計時就必須思考系統組裝到軟硬體整合所需的環境,否則資料中心發展將遭遇困難。

Arm北美業務副總裁曾志光指出,目前全球有50多家AI加速晶片業者,多專注自身晶片效能,忽略或甚至沒想過在系統端的搭配(跟什麼CPU搭配?主機板設計或記憶體控制?散熱?),他也觀察AI加速晶片開發多集中歐美,台灣跟日本較少,比較可惜。

伺服器系統業者掌握從機櫃、叢集運算、甚至AI資料中心基礎建設設計架構,累積能源管理軟體的基礎架構及工作負載規劃知識,楊麒令期望半導體業一起合作知識交流,將有助於讓AI伺服器產業鏈中傳統科技業也跟得上IC設計業的開發速度,當個生態系成員有共識,AI伺服器產業將創造一個新的典範轉移。

享受更高質量的財經內容 點我加入經濟日報好友

查看原始文章

更多理財相關文章

01

小確幸來了!115年發票加碼 雲端專屬5百元獎將增開70萬組

CTWANT
02

中鋼員工餐廳年銷百萬顆月餅、自助餐75元夾到飽、周三限定鮮魚米粉...鋼鐵龍頭「虧錢也要賣」的美味秘密

今周刊
03

快訊/聯電發布重大訊息!15.78億向ASML購入機器設備

三立新聞網
04

年前只買「這檔ETF」1個月賺百萬!股市小白驚:有點怕

民視新聞網
05

台積電列注意股仍突破天價 下一步恐被抓去關?證交所發聲了

三立新聞網
06

〈美股早盤〉主要指數開盤走高 市場聚焦輝達財報

anue鉅亨網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...