請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

中文字終於沒有亂碼了!ChatGPT推出Images 2.0,「思考模式」可自我檢測圖是否走鐘

數位時代

更新於 1天前 • 發布於 2天前

重點一:ChatGPT Images 2.0 文字描繪與多語系大躍進:日、韓、中、印地、孟加拉文皆可渲染。
重點二:首度加入「思考模式」,一次產最多 8 張連貫系列圖,並能自我檢查校對輸出。
重點三:時間點逼近IPO,OpenAI 要靠新圖像熱度衝破 10 億週活用戶。

OpenAI 在 4 月 21 日舉行線上發表會,推出新一代圖像生成模型 ChatGPT Images 2.0,主打精準文字描繪、多語系支援,以及首度具備「思考能力」的圖像生成模式。

執行長奧特曼(Sam Altman)在直播中形容:「Images 2.0 是一次巨大飛躍,就像一次從 GPT-3 跳到 GPT-5。」OpenAI 要把圖像生成從「按鈕式產圖」推進到「視覺合作夥伴」,讓模型不只生圖,還要會規劃、查資料、反覆校對自己的輸出。

OpenAI 推出 ChatGPT Images 2.0,強化中日韓文字描繪,並首度為圖像模型加入「思考」能力。對 ChatGPT 10 億活用戶目標有何助力?

OpenAI推出ChatGPT Images 2.0!中文字與非拉丁文字,終於不再亂碼

過去兩年,AI 生圖工具最被詬病的就是文字亂碼問題。兩年前你請 DALL-E 3 畫一張墨西哥餐廳菜單,菜名會變成「enchuita」「churiros」「burrto」「margartas」這類發明字。中文、日文、韓文等非拉丁文字的情況更慘,筆畫錯置、結構扭曲是家常便飯。

這次 Images 2.0 特別把「非拉丁文字渲染」列為主要升級項目,官方點名日文、韓文、中文、印地文、孟加拉文的文字表現都有明顯進步(OpenAI 官方公告僅以「Chinese」表述,未區分繁體或簡體)。

OpenAI在官網中示範的中國簡中漫畫。

發表會上展示的示範包括:完整的日式漫畫頁面、一整張米飯照片中只有單一米粒印有模型名稱,以及能直接在 API 以 2K 解析度輸出的海報與資訊圖。

這一波更新後,ChatGPT Images 終於可以生成中文與日文等語言。

換言之,對華文市場的編輯、行銷、設計工作者來說,這代表可以直接用一張 AI 生成圖產出宣傳素材,而不用再事後修文字。

「思考模式」是新玩法,一次給你八張可用成品

Images 2.0 最大的結構性改動,是引入 OpenAI 推論模型的「thinking(思考)」能力。

白話說,過去 AI 生圖是「一句 prompt 換一張圖」,想要系列作品得自己一張張餵指令。新版的思考模式可以接收一次性的複雜需求,例如「幫我做一組開幕廣告,要 Twitter、IG 限動、IG 主頁、LinkedIn 四種比例」,模型會自己拆解任務、上網查即時資訊,產出最多 8 張「角色與物件連貫」的圖像。

OpenAI 形容這是「視覺合作夥伴(visual thought partner)」:它不只是工具,而是能接手從草稿到成品中間的整理、編排、校對工作。

思考模式另一項能力是自我檢查。模型生圖後會回頭驗證輸出是否符合指令,官方稱錯字「非常罕見(very rare)」。

不過該模式目前只開放給 ChatGPT Plus、Pro、Business 付費用戶;所有 ChatGPT 與 Codex 用戶可使用較快的「即時模式(instant mode)」。

會上網查資料,知識截止到 2025 年 12 月

另一個值得注意的升級,是 Images 2.0 具備更新的世界知識。官方標示模型的知識截止日為 2025 年 12 月,在思考模式下還能搜尋網路補最新資訊。這對製作說明圖、教學素材、資訊圖表這類需要準確度的場景特別關鍵。

例如畫出「Cantor 對角線證明」這類抽象數學概念的資訊圖,模型可以自己整理內容、寫出說明文字、安排版面配置,而不是單純把 prompt 渲染成圖。

不只對手逼近,OpenAI 還有 IPO 壓力

Images 2.0 的時機點也不是巧合。

去年底 Google 連發 Gemini 3 與圖像生成工具 Nano Banana Pro,外界評價熱烈,OpenAI 內部據報隨後發布「code red」備忘錄。另一頭,Anthropic 以 Claude Code、Claude Cowork 等代理式工具強攻開發者與企業市場,逼得 OpenAI 持續加碼旗下的 Codex 更新。

此外,OpenAI 傳出最快今年內 IPO。在獲利壓力下,公司近期已改組為公益企業、砍掉部分產品線(如影片生成工具 Sora)。2 月時 OpenAI 公布 ChatGPT 的週活躍用戶突破 9 億;若 Images 2.0 能複製去年「吉卜力風」的病毒級熱度,對 ChatGPT 衝破 10 億週活用戶有直接幫助。

但Images 2.0還不完美,物理結構與密集細節仍吃力

OpenAI 也坦承現階段限制。

Images 2.0 在需要「完整物理世界模型」的場景仍會失手,例如摺紙教學、魔術方塊等需要理解角度、翻面、對應關係的題目;密集重複細節(如一堆細沙)也可能超出模型能力。圖表的箭頭、零件標籤等精細標示,仍建議人工複查。

同時,API 中超過 2K 解析度的輸出目前仍屬 beta 階段,部分輸出可能不穩定。

Images 2.0定價與開放時程

  • ChatGPT 與 Codex 用戶:即日起可使用即時模式(instant)
  • Plus、Pro、Business 訂戶:另開放思考模式(thinking)進階輸出
  • 開發者 API:以 gpt-image-2 模型名稱提供,價格依品質與解析度浮動

延伸閱讀:認識蘋果新執行長特納斯!「工程師頭腦、創新者靈魂」,帶4兆美元帝國進入後庫克時代

資料來源:OpenAIGizmodoTechCrunch

本文初稿為AI編撰,整理.編輯/ 李先泰

延伸閱讀

一道寵物用藥新制,為何讓大樹藥局站上風口浪尖?寵物用藥實務上遇到什麼難題?
觀點|南亞科787億元私募綁定美日韓四巨頭!趁DDR4缺貨先換策略地位,為何是聰明的一手?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

「斷頭救救我」個案浮現! 南高雄預售交屋認賠殺出

ETtoday新聞雲
02

台股暴力反彈飆逾900點 台積電漲60元衝2140元

台視
03

停不掉訂閱!知名AI軟體爆大規模盜刷 駭客用「這方式」竊取台用戶萬元

三立新聞網
04

14檔飆股明起「抓去關」!最長處置至5/8

EBC 東森新聞
05

阿公送3塊土地給長孫!才多看幾眼 地政士一動作竟幫省13萬稅金

三立新聞網
06

主動ETF與基金台積電持股 放寬至25%

NOWNEWS今日新聞
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...