AI 催生「新雲端」崛起,Neocloud 如何成為企業 AI 算力配置的新選項?
回顧過去十年,企業 IT 基礎建設的轉變非常明確,就是將大部分的工作負載,直接搬上亞馬遜 AWS、微軟 Azure 與 Google Cloud 等巨型雲端供應商,而這些平台所擁有驚人規模和高效率,更令雲端運算從原本的「額外選項」,搖身一變成為多數企業的「預設選擇」。
然而,AI 的出現卻開始悄悄改變雲端生態。由於 AI 模型的訓練與推論,通常需要跟過往雲端截然不同的運算設備與基礎建設,比方說特定的 AI 加速晶片、極高密度的電力供應,以及能夠快速搬運海量資料的管線等。
同時隨著 AI 需求不斷擴大,電力能源是否充足、晶片供應鏈狀況是否穩定,以及資料實際存放位置等限制,已經成為企業挑選雲端服務平台時,特別納入考量的關鍵重點。
在前述的背景下,有別於傳統服務的「新雲端(Neocloud)」即應運而生,並且於 2022 年 ChatGPT 帶起生成式 AI 熱潮後,迅速填補了市場上嚴重短缺的算力需求。
有別於傳統業者的新雲端
究竟什麼是「新雲端」?跨國技術顧問公司 Moor Insights & Strategy 伺服器領域高級分析師 Matt Kimball 認為,跟傳統雲端業者相較,新雲端供應商的核心業務是,專為 AI 工作負載提供「大規模加速運算環境」,而非單純營運通用型的雲端服務。
首先在硬體核心方面,新雲端的基礎架構完全圍繞著 AI 加速器,例如大型 GPU 叢集所打造,並且專為 AI 模型訓練,以及高數據吞吐量推論進行設計。
其次,新雲端的服務對象更加專一,相比傳統雲端平台提供資料庫、開發框架等龐大的生態系,新雲端則專注於提供充足的算力,以及大規模運行 AI 所需的維運工具。
再者,許多新雲端企業都是在 GPU 運算需求增長過快,導致傳統雲端服務提供者,無法快速擴充算力時所誕生,此時新雲端業者就能給予企業更快、更迅速取得大規模 AI 算力的管道,補上雲端巨頭來不及增加規模的空缺。
當然,市場上也有像 Vultr 這類,介於傳統雲端與新雲端之間的「混合模式」供應商;該公司除了直接提供 GPU 算力之外,亦營運了開發者專用的雲端平台,跟大型雲端業者業者一樣,希望建構出屬於自己的生態系統。
AI 讓雲端面臨更多限制
單純的 AI 算力不足,其實並不足以促使新雲端概念的出現,Matt Kimball 表示還有許多更深層的原因。
舉例來說,傳統雲端平台強調「抽象化」,開發者並不需要理解底層硬體究竟在哪裡,只要透過 API 呼叫運算資源即可,硬體的實際位置並不重要。
然而,AI 所帶來的工作負載卻打破了上述規則,讓雲端基礎架構的設計,必須重新面對更多限制,包括電力供應、硬體供應、資料引力(Data Gravity)與資料主權(Data Sovereignty)的考量。
在電力方面,大型 AI 運算叢集通常需要上百萬瓦的能源供應,而雲端巨頭的資料中心是否能順利擴建,高度受限於當地的電網、土地政策與法規限制。
從 GPU 到資料主權的挑戰
硬體供應上,兩大 GPU 領域廠商,即 NVIDIA 與 AMD 的 AI 運算晶片供貨速度,也決定了資料中心的擴張極限,甚至還牽連到全球半導體產業鏈的整體生產風險。
資料引力則是大型企業最擔心的部分,畢竟大多數 AI 系統皆仰賴龐大的企業機密資料進行運作,受限於傳輸延遲與法規,這些資料通常很難跨區域移動。
最後,隨著各國政府對資料落地的監管越來越嚴格,如 Oracle、AWS、Azure 與 Google Cloud 等大型雲端供應商,紛紛選擇推出「主權雲端」方案,希望解決資料主權問題。
在多重、多層次的挑戰之下,新雲端廠商有著後發先至的整體規劃優勢,它們能夠尋找電力充沛、合規且適合建立大型 AI 叢集的特定地區,建設屬於自己的基礎運算架構,不會像傳統業者一樣擁有過多的包袱。
企業雲端不再是「單選題」
那麼對企業來說,下一個世代的雲端建設部署,究竟又應該怎麼規劃呢?Matt Kimball 直言,未來企業的 AI 算力配置,絕對不會是個「單選題」,多數組織將會採用混合環境,結合傳統雲端、地端與新雲端,重點在於根據工作負載及維運限制,讓每個平台發揮各自的作用。
Matt Kimball 舉例,當傳統雲端平台的 GPU 出現供應短缺現象時,企業就可以考慮透過新雲端,填補當下缺乏的 AI 算力;又如面對 AI 模型訓練或大量推論任務時,新雲端所提供的高效能維運工具,就可以簡化部署流程。
此外,如果企業只是需要純粹的大規模加速運算,而不需要傳統雲端平台所附帶,複雜且昂貴的加值服務生態系,那麼新雲端也會是更具成本效益的選擇。
競爭激烈,Neocloud 走向差異化
Matt Kimball 分析,目前市面上知名的新雲端廠商,如 CoreWeave、Crusoe、TensorWave、Lambda、Genesis Cloud 等業者,為了在競爭中脫穎而出,也開始朝差異化路線發展。
比方說 CoreWeave 選擇緊密綁定 NVIDIA 的 CUDA 生態系,TensorWave 則主打 AMD 晶片,幫助企業分散供應鏈風險;Genesis Cloud 與 Crusoe 以地理及能源策略為優先,特別選定電力成本低、能源充沛的區域設立資料中心。
另一方面,Matt Kimball 說,有部分新雲端業者以客戶導向為發展考量,專攻 AI 新創企業、研究機構與 AI 模型開發人員的訓練需求,有些則主打服務企業級的正式環境,未來甚至可能出現專門替金融、醫療等高度監管產業所打造的垂直型平台。
打造一套「聯合運算生態系」
總歸來說,AI 技術的橫空出世與蓬勃發展,使雲端產業不得不重新考慮電力、晶片供應、資料引力與法規等限制,更讓雲端基礎架構從過去十年的「高度集中」與「巨頭壟斷」,走向人人皆有機會進攻市場的「分散部署」。
Matt Kimball 強調,雲端市場並沒有因為 AI 而分裂,反倒是在「進化」。
未來企業的 IT 架構,將會是一套「聯合運算生態系」,由雲端巨頭提供全球化平台,新雲端提供加速算力,並且以主權方案解決法規問題,至於企業自家的地端資料中心,則仍然專注於處理私有的內部資料。
對於企業而言,未來真正得面對的挑戰,絕對不再是「選擇哪一個雲端」,而是如何從多元生態系中,為不同的 AI 任務與負載,拼湊出最完美的混合架構。
【推薦閱讀】
◆ AI 資料中心能成為穩定電網的資產嗎?NVIDIA、Oracle 實測軟體動態調度,尖峰用電降 25%
◆ 【亞馬遜發起內部重組】力抗微軟、Google,AWS 諮詢部門朝 AI 轉型要搶回企業大單
◆ 數位基礎設施進入戰時模式:AWS 機房首遭戰火波及,雲端、銀行與資安體系同步受考驗
*本文開放合作夥伴轉載,參考資料:Forbes、CIO,首圖來源:Nano Banana 2
(責任編輯:鄒家彥)