請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

OpenAI 發佈 4o 影像生成技術 免費用戶也可使用

流動日報

更新於 04月03日11:24 • 發布於 03月25日21:28 • NewMobileLife

OpenAI宣布,從今天起正式將 Sora 的影像生成功能整合進 ChatGPT,這項新功能被命名為 4o Image Generation。過去用戶必須透過獨立網站才能使用 Sora,現在則能直接在 ChatGPT 中生成高品質圖像,操作更加方便。

全新升級的圖像體驗

Sora 最初是作為一款 AI 影片生成工具發表,不過這次首波整合僅針對靜態圖像生成。這項功能將開放給所有 ChatGPT 用戶,包含 Plus、Pro、Team 以及免費用戶。根據 OpenAI 發言人表示,免費用戶的使用次數將與 DALL·E 相同,目前估計為每日三次,但這個數量未來可能會依照需求變動。

圖像正確性大突破

Sora 新版的最大亮點之一,就是解決了長久以來困擾圖像生成器的「綁定」問題。所謂綁定,指的是 AI 在生成圖像時能否正確對應屬性與物件的關係。例如輸入「藍色星星與紅色三角形」,舊型號可能會出現顏色與形狀錯配的狀況。根據 OpenAI 研究負責人 Gabriel Goh 表示,Sora 現可正確處理多達 15 至 20 個物件,遠超過現有的 5 至 8 個極限,準確性與穩定性明顯提升。

這個版本也搭載 GPT-4o 的「omnimodal」核心,意味著它是建立在可同時處理文字、圖像、音訊與影片的基礎上打造的,展現 OpenAI 對於全方位生成能力的佈局。

文字渲染品質顯著提升

另一項重大進步則是在圖像中文字渲染的精確度。許多圖像生成工具在文字處理上仍會出現拼字錯誤或亂碼,讓原本用來製作貼紙、海報、菜單的圖片變得無法使用。Goh 指出,這部分經過數月細緻調整,終於達到穩定輸出的標準,雖仍在極小字體上略有誤差,但整體已足以應用於實際場景。

這也得益於 Sora 採用的「自回歸式生成方法」,即圖像是從左到右、從上到下依序繪製,與大多數一次性生成整張圖的擴散模型相比,能提供更好的細節控制與準確性。

具備世界知識

在發佈前的示範中,團隊展示了包括牛頓三稜鏡實驗圖、連環漫畫角色一致性的表現、資訊海報等多樣應用情境,顯示這項技術不僅能畫圖,更懂圖背後的知識邏輯。

ChatGPT 多模態產品負責人 Jackie Shannon 表示,Sora 的影像生成不僅靠畫功,而是結合了整個世界的知識底蘊,使用者無需過度解釋即可產出符合預期的圖像。

生成速度略慢

雖然目前圖像生成的速度比過去稍慢,但 OpenAI 強調這是為了品質所做出的權衡。Shannon 表示:「雖然在延遲方面還有進步空間,但這些圖像的品質與世界知識涵蓋,絕對值得等待那幾秒。」

值得注意的是,Sora 目前生成的圖片不會添加視覺浮水印,但會內嵌 C2PA 標準中繼資料以標示來源,並由內部工具進行追蹤。同時,用戶將擁有圖像的完整使用權,僅需遵守平台使用政策即可自由應用。

NewMobileLife 網站:https://www.newmobilelife.com
Facebook:https://www.facebook.com/jetsoiphone

查看原始文章
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...