科技

讓AI能「寫字」的新模型,Stability AI讓行銷素材再升級

創業小聚
更新於 2023年05月16日13:20 • 發布於 2023年05月17日02:00 • 張鈺鈴

2022年,從Midjourney、Stable Diffusion 2.1、Open AI的DALLE-2到Google開發的Imagen,圖像生成AI工具突飛猛進,不僅為內容創作帶來更多應用與可能性,也讓世界瞬間進入德國藝術家Joseph Beuys口中「人人都是藝術家」的時代。

但是,即使這些生成式AI模型再強大,還是有美中不足之處,比如畫不好真人的「手」,而且還沒辦法在生成圖像時寫出指示的正確文字,這個痛點也成為了生成式AI運用在品牌行銷、廣告設計時的阻礙。

廣告(請繼續閱讀本文)

如今,這個令行銷人員頭痛的問題被Stability AI解決了,它與旗下AI研究實驗室DeepFloyd新推出的AI模型DeepFloyd IF已經能在生成圖片上,正確地為海報、宣傳圖寫上品牌名稱、資訊和各種標語,將圖像生成AI推向了更高的境界。

Stability AI做到了多數圖像生成AI都做不到的「寫字」,它是怎麼辦到的?

DeepFloyd IF這款圖像生成模型,根據超過10億個圖像和文本數據進行複雜訓練,使用模組化方式來生成AI圖像。和其他AI模型一樣,DeepFloyd IF除了能透過文字指令生成圖像,更可以幫使用者在圖像上寫出他們想要的文字。

廣告(請繼續閱讀本文)

《Meet創業小聚》實測了DeepFloyd IF在圖片中生成文字的精準度,並與Stable Diffusion 2.1相比較。當給予兩種模型同樣的指示:「一個亞洲女性,穿著一件寫有Meet白色字體的粉紅色短袖T-shir」,能看出Stable Diffusion 2.1生成的圖像不僅不完整、字母也是拼錯的,相較之下,DeepFloyd IF生成的圖像不僅完整度高、字母顏色和拼字都正確。

實測DeepFloyd IF在圖片中生成文字的精準度,並與Stable Diffusion 2.1相比較。當給予兩種模型「一個亞洲女性,穿著一件寫有Meet白色字體的粉紅色短袖T-shir」的同樣指示,Stable Diffusion 2.1生成的圖像不完整、字母拼錯,而DeepFloyd IF生成的圖像不僅完整度高、字母顏色和拼字都正確。

DeepFloyd IF的誕生為行銷素材的生成帶來更多選擇。根據聯盟行銷平台Authority Hacker發表2023年行銷產業AI現狀報告來看,在接受調查的3,812位行銷人員中,高達75%都開始採用AI工具,可見將AI運用在行銷已成常態。

能為品牌生成有正確名稱、資訊圖片的DeepFloyd IF,不僅更適用在LOGO設計、網頁設計、海報、廣告以及迷因,它還有一項圖像生成圖像的功能,透過保留圖片地最初構圖,能根據修正的文字指示生成不同樣式、風格的相似圖像,讓圖片素材做到多樣化使用。

DeepFloyd IF的模型為何能做到連DALLE-2、Stable Diffusion 2.1都做不到的,生成精準文字和相似圖像的功能呢?

DeepFloyd IF採用了擴散模型,該模型讓DeepFloyd IF在生成圖像時能進行多次去除圖像雜訊的過程,透過先產生64x64像素的低畫質圖片,再進一步從大量圖片資訊庫中抓取指示需要的部分,反覆去除、修正不必要的圖像雜訊,最中產生出1024x1024像素的高品質圖像。

DeepFloyd IF還有一項圖像生成圖像的功能,能保留圖片的最初構圖,再根據更多的文字指示生成不同樣式、風格和細節的相似圖像。

目前,藝術生成工具NightCafe是唯一取得DeepFloyd IF早期使用許可權的平台,在NightCafe上,用戶可以透過DeepFloyd IF製作免費、有限數量的創作作品。NightCafe執行長Angus Russell在接受《TechCrunch》採訪時分享,他認為DeepFloyd IF將能在AI生成圖像中脫穎而出,因為它擁有了能生成清晰文字的關鍵能力。

再度為圖像生成AI開啟新篇章的Stability AI,目前還沒有將這款模型商用的打算,它在HuggingFace上提供了DeepFloyd IF試用版本,並以開源的形式運作,希望讓大眾都能使用到這個模型。其實,Stability AI的創辦理念,原本就是建立在「打造一個統一的開源程式碼」之上,而這必須從創辦人Emad Mostaque的故事說起。

看見科技落差,Stability AI創辦人希望讓人人都能使用AI

Emad Mostaque在接受金融科技公司Mercury的訪談時,分享了自己為何踏入AI創業的原因。

在約旦出生、英國長大,被診斷有亞斯伯格症候群和過動症的Emad Mostaque,2005年從牛津大學畢業之後,在英國多家對沖基金公司工作了13年。他表示,在漫長的職業生涯中,自己總是不斷的反思與思考社會現狀,他注意到了世界上許多不平等以及科技落差的問題,Emad Mostaque問自己:「面對這樣的問題,為什麼不做一個免費的開源平台、讓人們之間可以共享學習呢?」他因此踏上了創業之路,希望透過提供更平等的工具和服務,來降低這些社會差距。

Emad Mostaque注意到世界的不平等、科技落差等問題,他問自己:「為什麼不做一個免費的開源平台、讓人們之間共享學習呢?」這成為了他創業以及創辦Stability AI的原因。

2019年,Emad Mostaque率先創立了Symmitree,幫助非洲和其他貧困地區加速數位化推動,為當地企業提供低成本的SaaS工具,比如身份認證、數據統計等。

創辦Symmitree不久後,Emad Mostaque看見了2010年代末大數據、深度學習技術爆發而迎來的AI熱潮,他對AI感到興奮,但同時Emad Mostaque又再度想到科技落差的問題:「除非進入大型科技公司或學術機構,不然普通人是難以接觸到AI科技的。」為了消弭這樣的科技落差,他再度開啟第二次創業,以讓人人都能使用AI為目標,創立了Stability AI。

Stability AI正積極募資,預計在未來幾年內規劃IPO

在2020年底創立的Stability AI,剛成立就獲得超過1億美元的募資金,由Coatue和Lightspeed Venture Partners領頭,估值來到10億美元。Emad Mostaque在《Bloomberg》訪問中分享,他們為大眾提供的開源版本已經擁有超過150萬位用戶,累積至今創建了超過1.7億張圖像。

《Bloomberg》的報導也提到,Stability AI目前正在尋求資金,希望能籌集到40億美元的募資。不久前,在舊金山舉行的Cerebral Valley AI大會上,Emad Mostaque表示,Stability AI正規劃在未來幾年內進行IPO,這也可能是他們現在積極籌募資金的原因。

此外,Emad Mostaque也是支持監管AI的倡議者之一,今年3月,他與數百位著名的AI專家、科技企業家和科學家一同簽署了「暫停AI開發」連署,Emad Mostaque認為:「OpenAI應該更加透明並且要受到監管,因為我們目前都不清楚什麼是正確的AI的治理,以及AI運作透明的條件。」他對AI應該被適當監管的認同,也呼應了當初創立Stability AI的初衷,亦即要讓這項技術不被科技巨頭掌控,並且要讓人人都能享有使用這項科技的權利。

參考資料:[TechCrunch]、[Marktechpost]、[Voicebot.ai

延伸閱讀

Adobe推出生成式AI模型!Photoshop 、Illustrator新功能曝光,還解決版權問題?
「給AI目標的終究還是人!」MoBagel瞄準生成式AI運用將推新產品DeLAbs Design AI
成為創作者的靈感百寶箱!Same Energy開發AI圖像搜索引擎,用「照片」當作搜尋關鍵字
別將想法畫在同一張紙上!將思路圖像化,更要以「3C」思維詮釋

查看原始文章