請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

實測|阿里巴巴推AI圖像生成模型Qwen-Image:效果如何?繁體中文能用嗎?

數位時代

更新於 2025年08月06日08:24 • 發布於 2025年08月06日07:40

重點一:阿里巴巴(Alibaba)旗下的「通義千問」(Qwen Team)團隊發表了開源的AI圖像生成模型「Qwen-Image」,其最大特色在於能準確呈現圖像中的文字,特別是複雜的中文排版與雙語內容,有效解決了過往生成式AI的痛點。

重點二:Qwen-Image 在多項公開基準測試中表現優異,其在中文文字渲染方面的能力顯著超越其他現有模型,並且在人類評估的AI Arena排行榜上,是排名最高的開源模型,證明其強大的生成能力。

重點三:Qwen-Image 採用 Apache 2.0 許可證,允許商業與非商業用途,為企業提供了一個低成本的開源選擇,適用於內部行銷、零售與電子商務等多元應用,但需注意其並未提供著作權侵權賠償。

阿里巴巴(Alibaba)旗下的通義千問(Qwen Team)團隊近期推出開源圖像生成模型 Qwen-Image。

這款模型的最大亮點在於其卓越的文字渲染能力,能夠精準地在生成的圖像中呈現清晰、符合語義的文字,有效解決了許多AI模型在處理文字時,常出現亂碼或模糊不清的問題。

Qwen-Image 支援英文字母與漢字等不同文字系統,並能處理多行排版、段落層級語義,甚至是中英雙語內容,因此適用於電影海報、簡報投影片、社群貼文等需要呈現精準文字的應用情境。

領先業界的文字渲染與綜合效能

根據通義千問發布的技術報告, Qwen-Image 主要透過「漸進式學習」(progressive learning)與「多模態任務校準」(multi-modal task alignment)的方式進行訓練,訓練資料庫包含數十億組圖文配對,涵蓋自然圖像、人物肖像、設計內容(如海報與UI版面)以及自行生成的合成文字資料。

Qwen-Image 在多項嚴格的公開基準測試中展現了卓越的綜合能力。無論是評估提示語遵循度的 GenEval 和 DPG 測試,還是版面佈局的精確度 OneIG-Bench、TIIF 測試,其表現均能媲美甚至超越領先的閉源模型,如 GPT Image 1 High、Seedream 3.0 和 FLUX.1 Kontext Pro。

Qwen-Image 出色的表現也獲得了社群的高度認可,使其在 AI Arena 的人工評比中,成為排名最高的開源模型,總排名更是一舉衝進前三名。

Qwen-Image商用注意事項

Qwen-Image 模型採用 Apache 2.0 授權,允許商業與非商業用途,開發者可以自由地使用、再發布與修改模型,僅需在衍生作品中註明來源並附上授權條文。對於尋求開源圖像生成工具的企業來說,是個極具吸引力的選擇,能夠大幅降低授權成本,用於製作內部文件、廣告傳單、電子報等。

不過,Qwen-Image訓練資料的來源並未完全公開,仍與多數領先的AI圖像生成模型一樣,屬於保密資訊。此外,不同於 Adobe Firefly 或 OpenAI 的 GPT-4o 服務,阿里巴巴並未提供任何著作權侵權賠償(Indemnification),這意味著若使用者因生成內容產生著作權糾紛,使用者需自行承擔法律風險。

實測:Qwen生圖好用嗎?

文字渲染能力

Qwen最被推廣的為其文字渲染能力,號稱能夠精準地在生成的圖像中呈現清晰、符合語義的文字,同時還支援漢字與英文2種不同的語意系統。

為了測試這項功能,我們在對話框中輸入以下Prompt:

生成一張電影海報,標題是「夢想追逐者 The Dream Chaser」,下方寫著「上映日期:2025年8月5日」

從Qwen的生成結果上來看,除了「上映日期」生成了「上映日間」,這張圖片大致上是有符合指令需求的,不僅能生成繁體中文,同時英文、數字也能完整地在同一張圖片上呈現,證明了 Qwen 能夠處理多語系以及其宣稱的強大文字渲染能力。

提示詞理解

為了測試Qwen是否能夠包含多個元素、場景、顏色和動作元素的複雜提示,並遵照指令生成圖片,我們在對話框輸入:

一個穿著紅色外套的小女孩,在下雪的森林裡,身旁有一隻白色的狐狸,遠處有座小木屋,小木屋亮著燈,煙囪冒著煙,畫面要溫馨。

從Qwen生成的結果來看,這張圖片在整體氛圍與細節處理上表現得相當出色,充分展現了 Qwen 在圖像風格掌握與多物件生成方面的能力。

多文字呈現

我們想了解Qwen一次在圖片中生成多個文字的能力,因此對AI輸入了以下指令:

設計一張社群貼文,內容要包含以下文字:
AI提示詞公式:
角色設定:要 LLM 調度哪些領域知識
任務:你想完成什麼目標
背景:任務的起源/目標的限制/涉及的人士…等
格式:輸出類型、編排格式

從生成的結果來看,在多文字輸出上,Qwen對於繁體中文字型的處理能力是不足的,不僅直接將繁體中文以簡體中文呈現,甚至在左上角的地方還出現了不明的崩壞文字。

總結來說,Qwen-Image在生成圖片文字以對於提示詞的理解有優異的表現,但對於多行的繁體中文處理仍不足,其開源的 Apache 2.0 授權雖為企業提供了低成本的選擇,但使用者也需自行承擔潛在的著作權侵權風險,使用者可評估以後,依據自身的需求做選擇。

延伸閱讀:AI深度研究實測大PK:ChatGPT、Gemini、Perplexity、Claude,誰是最強報告神器?
影片|GPT-4o生圖大進化!如何用它製作個人公仔、LINE貼圖、四格漫畫…?生成教學一次看

參考資料:Venturebeat

延伸閱讀

實測|ChatGPT學習模式:一鍵神解題還能拆解邏輯,真人家教要失業了?
實測AI瀏覽器Dia!一鍵整合分頁變「生產力神器」:亮點3功能怎麼用?能取代Chrome嗎?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

高盛合夥人喊「買」!美股大跌是「健康修正」:今年這種買入機會不多

anue鉅亨網
02

台股大逃殺來了?史詩級股災紀錄一次看

自由電子報
03

台股週一崩定了?名嘴阮慕驊點名有人可能直接畢業

自由電子報
04

周一台股大逃殺?台指期夜盤重挫3,006點寫最大跌幅 法人:適度修正

經濟日報
05

當場社死!黃仁勳拿皮夾簽名 打開一看竟皺眉:攏沒錢啊

鏡週刊
06

川普政策熄火比特幣 6萬美元防線失守

NOWNEWS今日新聞
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...