AI 不只比大模型:OpenAI 為何砸百億美元聯手 Cerebras 力拚「即時推理」?
OpenAI 與晶片新創公司 Cerebras 達成一項合約總價值超過 100 億美元的多年期合作協議,合作規模高達 750MW,預計將於 2026 年開始分階段部署,並持續至 2028 年,成為全球最大規模的高速 AI 推理部署案之一。
《Reuters》指出,這項合作的核心在於 OpenAI 向 Cerebras 採購計算能力,而非單次的硬體購買;Cerebras 則將負責建置或租賃裝載自身晶片的資料中心,供 OpenAI 運行 AI 產品。OpenAI 在官方聲明中強調,此舉並非聚焦於傳統的模型訓練,而是為了提升推理效能並降低延遲,OpenAI 也將這項投資定位為支援即時互動型 AI 應用的基礎設施,目的是讓 AI 回應更迅速自然。
推理需求增長成為 OpenAI 擴大算力布局的關鍵背景
這項投資選擇,並非單一技術升級,而是來自 OpenAI 服務規模與使用型態變化所帶來的結構性壓力。隨著 ChatGPT 的每週使用者規模已突破 9 億人,OpenAI 正面臨日益嚴峻的算力短缺壓力,必須持續擴張基礎設施,才能支撐下一階段的成長。在這樣的背景下,AI 運算需求的重心也出現結構性轉變:從早期以模型訓練為主,逐步轉向推理階段。
這項轉變與 AI 應用型態的演進密切相關。當前發展趨勢正朝向需要在回應前進行「思考」的推理與邏輯模型發展,而這類模型對即時回應能力與低延遲運算的要求更為嚴苛。「OpenAI 的算力策略,是建立一個具備韌性的組合,讓合適的系統對應合適的工作負載,Cerebras 為我們的平台補上了專用的低延遲推理解決方案,這意味著更快的回應速度、更自然的互動體驗,以及一個能將即時 AI 擴展給更多人的更穩固基礎,」OpenAI 運算基礎設施負責人 Sachin Katti 如此說明在算力布局上的策略考量。
Cerebras 執行長:即時推理也將重新定義 AI,開啟建構與使用 AI 模型的全新方式
在 OpenAI 明確將推理視為下一階段擴張核心後,Cerebras 的技術定位,正好對應這項需求轉向。Cerebras 形容這次合作是「將高速推理帶向主流」,並指出自身系統在執行大型語言模型的推理任務時,速度可較傳統 GPU 系統提升約 15 倍。這項效能優勢來自獨特的硬體架構:透過將大量運算資源、記憶體與頻寬整合在單一大型的晶圓級晶片(wafer-scale chip)上,減少資料搬移所造成的延遲,進而消除推理階段的效能瓶頸。
Cerebras 與 OpenAI 皆指出,這種極低延遲的推理能力,對需要即時反應的應用場景至關重要,並特別點名程式碼代理與複雜程式碼生成、語音聊天、自然語言互動,以及需即時處理複雜邏輯、甚至在「思考」後才產生回應的互動式 AI 與推理模型等數項關鍵應用。Cerebras 執行長 Andrew Feldman 形容:「就像寬頻徹底改變了網際網路,即時推理也將重新定義 AI,開啟建構與使用 AI 模型的全新方式。」
此外,效能提升帶來的影響不僅止於使用體驗,還能直接轉化為更高的使用者參與度與商業價值。對 OpenAI 而言,當 AI 能即時回應,使用者可能會在平台上停留更久,並執行價值更高的運算任務。
OpenAI 正在逐步建立一個涵蓋多種非 GPU 架構的算力組合
從 Cerebras 的角色來看,這項合作並非單點押注,而是 OpenAI 長期算力策略的一環。這筆價值超過 100 億美元的合作合約,不僅反映出 OpenAI 對低延遲推理技術的迫切需求,也凸顯 OpenAI 正將算力來源從單一供應商,擴展至更多高效率替代方案的趨勢。這不僅是在降低對 NVIDIA 的依賴,也是確保能針對不同工作負載選擇最合適的計算系統,進而為全球數億用戶提供更自然且即時的互動體驗。
除了與 Cerebras 合作外,OpenAI 近年也陸續與 Broadcom 攜手開發客製化 AI 處理器,並採購 AMD 的 MI 系列晶片,顯示其正逐步建立一個涵蓋多種非 GPU 架構的算力組合。透過整合這些不同來源的專用運算資源,OpenAI 的目標,是為日益成長的即時推理需求打造更具韌性的基礎設施,並為使用者帶來如同從「撥接」邁向「寬頻」般進化的 AI 互動體驗。
*本文開放合作夥伴轉載,資料來源:OpenAI、Cerebras、《CNBC》、《SiliconANGLE》、《Reuters》、《Financial Times》,首圖來源:OpenAI