讓AI能「寫字」的新模型，Stability AI讓行銷素材再升級

2022年，從Midjourney、Stable Diffusion 2.1、Open AI的DALLE-2到Google開發的Imagen，圖像生成AI工具突飛猛進，不僅為內容創作帶來更多應用與可能性，也讓世界瞬間進入德國藝術家Joseph Beuys口中「人人都是藝術家」的時代。

但是，即使這些生成式AI模型再強大，還是有美中不足之處，比如畫不好真人的「手」，而且還沒辦法在生成圖像時寫出指示的正確文字，這個痛點也成為了生成式AI運用在品牌行銷、廣告設計時的阻礙。

如今，這個令行銷人員頭痛的問題被Stability AI解決了，它與旗下AI研究實驗室DeepFloyd新推出的AI模型DeepFloyd IF已經能在生成圖片上，正確地為海報、宣傳圖寫上品牌名稱、資訊和各種標語，將圖像生成AI推向了更高的境界。

Stability AI做到了多數圖像生成AI都做不到的「寫字」，它是怎麼辦到的？

DeepFloyd IF這款圖像生成模型，根據超過10億個圖像和文本數據進行複雜訓練，使用模組化方式來生成AI圖像。和其他AI模型一樣，DeepFloyd IF除了能透過文字指令生成圖像，更可以幫使用者在圖像上寫出他們想要的文字。

《Meet創業小聚》實測了DeepFloyd IF在圖片中生成文字的精準度，並與Stable Diffusion 2.1相比較。當給予兩種模型同樣的指示：「一個亞洲女性，穿著一件寫有Meet白色字體的粉紅色短袖T-shir」，能看出Stable Diffusion 2.1生成的圖像不僅不完整、字母也是拼錯的，相較之下，DeepFloyd IF生成的圖像不僅完整度高、字母顏色和拼字都正確。

Stable Diffusion 2.1與DeepFloyd IF 生成有文字圖片的精準度測試 — 實測DeepFloyd IF在圖片中生成文字的精準度，並與Stable Diffusion 2.1相比較。當給予兩種模型「一個亞洲女性，穿著一件寫有Meet白色字體的粉紅色短袖T-shir」的同樣指示，Stable Diffusion 2.1生成的圖像不完整、字母拼錯，而DeepFloyd IF生成的圖像不僅完整度高、字母顏色和拼字都正確。

DeepFloyd IF的誕生為行銷素材的生成帶來更多選擇。根據聯盟行銷平台Authority Hacker發表2023年行銷產業AI現狀報告來看，在接受調查的3,812位行銷人員中，高達75%都開始採用AI工具，可見將AI運用在行銷已成常態。

能為品牌生成有正確名稱、資訊圖片的DeepFloyd IF，不僅更適用在LOGO設計、網頁設計、海報、廣告以及迷因，它還有一項圖像生成圖像的功能，透過保留圖片地最初構圖，能根據修正的文字指示生成不同樣式、風格的相似圖像，讓圖片素材做到多樣化使用。

DeepFloyd IF的模型為何能做到連DALLE-2、Stable Diffusion 2.1都做不到的，生成精準文字和相似圖像的功能呢？

DeepFloyd IF採用了擴散模型，該模型讓DeepFloyd IF在生成圖像時能進行多次去除圖像雜訊的過程，透過先產生64ｘ64像素的低畫質圖片，再進一步從大量圖片資訊庫中抓取指示需要的部分，反覆去除、修正不必要的圖像雜訊，最中產生出1024ｘ1024像素的高品質圖像。

目前，藝術生成工具NightCafe是唯一取得DeepFloyd IF早期使用許可權的平台，在NightCafe上，用戶可以透過DeepFloyd IF製作免費、有限數量的創作作品。NightCafe執行長Angus Russell在接受《TechCrunch》採訪時分享，他認為DeepFloyd IF將能在AI生成圖像中脫穎而出，因為它擁有了能生成清晰文字的關鍵能力。

再度為圖像生成AI開啟新篇章的Stability AI，目前還沒有將這款模型商用的打算，它在HuggingFace上提供了DeepFloyd IF試用版本，並以開源的形式運作，希望讓大眾都能使用到這個模型。其實，Stability AI的創辦理念，原本就是建立在「打造一個統一的開源程式碼」之上，而這必須從創辦人Emad Mostaque的故事說起。

看見科技落差，Stability AI創辦人希望讓人人都能使用AI

Emad Mostaque在接受金融科技公司Mercury的訪談時，分享了自己為何踏入AI創業的原因。

在約旦出生、英國長大，被診斷有亞斯伯格症候群和過動症的Emad Mostaque，2005年從牛津大學畢業之後，在英國多家對沖基金公司工作了13年。他表示，在漫長的職業生涯中，自己總是不斷的反思與思考社會現狀，他注意到了世界上許多不平等以及科技落差的問題，Emad Mostaque問自己：「面對這樣的問題，為什麼不做一個免費的開源平台、讓人們之間可以共享學習呢？」他因此踏上了創業之路，希望透過提供更平等的工具和服務，來降低這些社會差距。

Stability AI創辦人Emad Mostaque — Emad Mostaque注意到世界的不平等、科技落差等問題，他問自己：「為什麼不做一個免費的開源平台、讓人們之間共享學習呢？」這成為了他創業以及創辦Stability AI的原因。

2019年，Emad Mostaque率先創立了Symmitree，幫助非洲和其他貧困地區加速數位化推動，為當地企業提供低成本的SaaS工具，比如身份認證、數據統計等。

創辦Symmitree不久後，Emad Mostaque看見了2010年代末大數據、深度學習技術爆發而迎來的AI熱潮，他對AI感到興奮，但同時Emad Mostaque又再度想到科技落差的問題：「除非進入大型科技公司或學術機構，不然普通人是難以接觸到AI科技的。」為了消弭這樣的科技落差，他再度開啟第二次創業，以讓人人都能使用AI為目標，創立了Stability AI。

Stability AI正積極募資，預計在未來幾年內規劃IPO

在2020年底創立的Stability AI，剛成立就獲得超過1億美元的募資金，由Coatue和Lightspeed Venture Partners領頭，估值來到10億美元。Emad Mostaque在《Bloomberg》訪問中分享，他們為大眾提供的開源版本已經擁有超過150萬位用戶，累積至今創建了超過1.7億張圖像。

《Bloomberg》的報導也提到，Stability AI目前正在尋求資金，希望能籌集到40億美元的募資。不久前，在舊金山舉行的Cerebral Valley AI大會上，Emad Mostaque表示，Stability AI正規劃在未來幾年內進行IPO，這也可能是他們現在積極籌募資金的原因。

此外，Emad Mostaque也是支持監管AI的倡議者之一，今年3月，他與數百位著名的AI專家、科技企業家和科學家一同簽署了「暫停AI開發」連署，Emad Mostaque認為：「OpenAI應該更加透明並且要受到監管，因為我們目前都不清楚什麼是正確的AI的治理，以及AI運作透明的條件。」他對AI應該被適當監管的認同，也呼應了當初創立Stability AI的初衷，亦即要讓這項技術不被科技巨頭掌控，並且要讓人人都能享有使用這項科技的權利。

參考資料：［TechCrunch］、［Marktechpost］、［Voicebot.ai］

請更新您的瀏覽器

科技

創業小聚

Stability AI做到了多數圖像生成AI都做不到的「寫字」，它是怎麼辦到的？

看見科技落差，Stability AI創辦人希望讓人人都能使用AI

Stability AI正積極募資，預計在未來幾年內規劃IPO

留言 0