打破對 NVIDIA 的依賴:OpenAI 推 GPT-5.3-Codex-Spark,回應速度提升 15 倍卻有代價
OpenAI 近日正式發布 GPT-5.3-Codex-Spark 研究預覽版,這是旗艦模型 GPT-5.3-Codex 的較小版本,也是 OpenAI 首個專為即時編碼協作而建構的模型,核心目標是透過部署在超低延遲的專用硬體上,提供開發者「近乎即時」的互動式編碼體驗。
Cerebras 成為 Codex-Spark 創造低延遲硬體基礎
為了達成這個低延遲目標,OpenAI 指出,Codex-Spark 的推出是與晶片製造商 Cerebras Systems 展開策略夥伴關係的「第一個里程碑」,並已將 GPT-5.3-Codex-Spark 模型部署在 Cerebras 的硬體上提供服務。
Codex-Spark 的快速推理主要運行在 Cerebras 的晶圓級引擎 3(Wafer Scale Engine 3),這是一個大小與餐盤相仿、包含 4 兆個電晶體的單晶片。這款硬體可以消除困擾傳統 GPU 叢集的瓶頸,也就是人工智慧工作負載分佈在小型處理器叢集上時產生的大量通訊開銷。
這次 OpenAI 與 Cerebras 的合作,也被視為 OpenAI 正在擺脫對 NVIDIA 的依賴,不過 OpenAI 強調 NVIDIA GPU 仍是內部訓練與推理的基礎,Cerebras 的定位則是補足「極低延遲工作流」的專用服務層。
從模型效能到互動流程:Codex-Spark 的加速邏輯
在硬體之外,OpenAI 也同步重寫了 Codex-Spark 的互動邏輯。在速度表現上,OpenAI 表示 Codex-Spark 目標是把互動式編碼拉到「近乎即時」的體驗層級,並稱其每秒可輸出超過 1,000 個 token,在程式碼生成速度也比旗艦 GPT-5.3-Codex 快 15 倍。
OpenAI 強調,這種加速並不只靠模型本身,而是針對「互動式工作(interactive work)」重新設計整體使用流程,意即開發者可以在模型生成途中隨時打斷或改變方向,並以更高頻率快速迭代,同時讓協作更貼近即時回饋。
提升速度背後的「陷阱」:以功能妥協為代價
在評估實際能力時,OpenAI 也坦言 Codex-Spark 的效能表現存在取捨。在 SWE-Bench Pro 和 Terminal-Bench 2.0 這兩個評估人工智慧系統自主執行複雜軟體工程任務能力的行業基準測試中,Codex-Spark 的性能遜於完整的 GPT-5.3-Codex 模型。然而,OpenAI 認為這是可以接受的,因為即使底層模型無法應付最複雜的多步驟程式設計挑戰,開發者也能獲得足夠快的反應速度,從而保持創作靈感。
OpenAI 進一步解釋,由於 Codex-Spark 是針對速度進行調校,其預設的工作風格更為輕量,傾向於進行最小且精準的修改,所以除非使用者明確要求,否則模型不會自動執行測試。
儘管回應速度驚人,OpenAI 仍指出,Codex-Spark 的速度提升是以功能上的妥協作為代價,不過他們認為,多數開發者會接受這樣的取捨,以換取更即時的創作節奏與回饋。
OpenAI 發言人表示:「我們正在向一小部分設計合作夥伴開放 Codex-Spark 的 API,以便了解開發人員希望如何將 Codex-Spark 整合到他們的產品中,未來幾週,我們將擴大存取權限,並繼續在實際工作負載下調整整合方案。」
Codex-Spark 並非要全面取代 GPT-5.3-Codex,而是讓 Codex 同時具備「長時間、複雜任務」與「當下即時協作」兩種模式,以回應不同開發場景的需求。隨著 OpenAI 將持續擴大存取權限並觀察真實工作負載下的表現,Codex-Spark 能否在低延遲與模型能力之間找到更好的平衡,將成為後續觀察的關鍵。
*本文開放合作夥伴轉載,資料來源:《ZDNET》、OpenAI、《TechCrunch》、《VentureBeat》、《TechBuzz》,首圖來源:Unsplash