Sora 剛退場,OpenAI 為何急推 ChatGPT Images 2.0?影像生成正從娛樂內容轉向高價值工作場景
OpenAI 在宣布關閉曾一度爆紅的 Sora 應用程式後,近期迅速推出新一代影像生成模型 ChatGPT Images 2.0。這並非單純重回「AI 畫圖熱潮」,而是 OpenAI 決定將影像生成能力重新放回 ChatGPT 核心產品與工作場景中,並將其定位為使用者的「視覺思考夥伴」。ChatGPT Images 產品負責人 Adele Li 強調:「視覺智慧的視野與使用場景正大幅擴展,我們相信這對 ChatGPT 發展個人助理的願景至關重要。」
Images 2.0 大升級:精準排版、多語言支援與具備「思考」能力
Images 2.0 全面升級核心能力,包括更強的文字生成與排版能力、圖示與版面組織能力、更細緻的指令遵循(instruction following)、物件擺放與細節保留的精準度。同時,也大幅提升針對日文、韓文、中文等非拉丁語系的多語言文字處理能力。
值得注意的是,新模型分為「即時(Instant)」與「思考(Thinking)」兩種模式。即時模式開放給所有 ChatGPT 與 API 用戶,當使用者在 ChatGPT 中選擇思考或專業(Pro)模型時,Images 2.0 能夠搜尋網路以獲取即時資訊,並對自身的輸出結果進行二次檢查。Images 2.0 也能從單一提示詞生成最多八張圖像,同時維持角色與物件的視覺一致性,這讓新模型非常適合應用於漫畫、分鏡圖、社群圖卡、多頁設計等連續性內容的創作。目前,這項功能已整合至 ChatGPT 與 Codex 中,顯示 OpenAI 正將影像能力嵌入更完整的產品體系內。
OpenAI 為何必須加快推出新一代影像模型?
《The Verge》分析,自從 OpenAI 在 2025 年推出上一代 ChatGPT Images 以來,影像生成領域的競爭已白熱化,市場上陸續出現 Google 的 Nano Banana Pro 與 Microsoft 的 MAI-Image-2 等強勁的新工具。
根據 LM Arena 截至 4 月初的文字轉圖像排行榜,Google 的 Gemini 暫居第一,OpenAI 的 gpt-image-1.5 位居第二。加上 OpenAI 舊有的 DALL-E 2 與 DALL-E 3 即將於 5 月 12 日正式退場,無論從商業或策略角度考量,OpenAI 都迫切需要推出新一代的替代模型。
外媒指出,OpenAI 正為今年可能啟動的首次公開募股(IPO)做準備,因此期望藉由此新模型的推出,將其每週活躍用戶數從 9 億推向 10 億大關,以向投資人證明自身強大的成長潛力。
為了回應競爭壓力,Images 2.0 的一個關鍵差異,是不再盲目追求單張圖像的華麗視覺效果,而是強調可讀的文字、可交付的版型,以及更貼近真實工作需求的輸出。為此,新模型的知識截止時間已更新至 2025 年 12 月,確保其在生成解說圖、教育圖表與視覺摘要等應用場景時,能提供更準確且符合上下文的結果。
Images 2.0 正把影像生成推向高價值工作場景
《CNET》與《The Deep View》皆將這次 OpenAI 的升級重點放在工作應用上,明確指出 Images 2.0 主打的不再是網路迷因或風格化娛樂,而是資訊圖表、科學海報、教材與行銷素材等能直接應用於工作中的輸出,核心目標在於完成「具經濟價值的創意任務」,並專為「實用性、美觀與真實世界創意工作」而設計。
《The New Stack》進一步指出,隨著 Images 2.0 整合進程式碼環境 Codex,開發者現在能在同一個工作區內無縫處理應用程式開發、簡報內容與原型設計等任務,不必切換工具即可比較選項並推進到正式產品中,這也代表影像生成已正式成為完整知識工作流的一部分。對企業與專業工作者而言,這次升級的最大價值在於能將簡單的需求簡報轉化為多頁、風格一致且帶有結構文字的視覺輸出,而不僅僅是生成一張好看的圖片。
不過,Images 2.0 目前仍有使用限制。例如,在處理摺紙教學、魔術方塊等涉及物理世界一致性的任務時,或在呈現如沙粒般極細微的視覺細節,以及圖表標註與零件圖的準確性上,仍會面臨困難。此外,華頓商學院教授 Ethan Mollick 也指出,Images 2.0 模型在多輪編修後會出現效果遞減的問題,他稱之為「典型的影像生成問題」。因此,目前的 Images 2.0 更像是正式跨入了實用階段,而非發展至完全成熟。
ChatGPT Images 2 的誕生,凸顯 OpenAI 不再將影像能力的發展籌碼押注於爆紅內容與視覺奇觀;相反地,OpenAI 正轉向教育、行銷、簡報、資訊整理與企業工作流程等更高價值的應用場景。現在,OpenAI 將影像生成定位為核心介面層,也讓這項技術從單純的附屬功能,逐漸蛻變為使用者與 AI 系統互動的主要方式之一。
*本文開放合作夥伴轉載,資料來源:《CNET》、《The Verge》、《The Deep View》、《The New Stack》、《Gizmodo》、《VentureBeat》,首圖來源:OpenAI