請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

讓AI能「寫字」的新模型,Stability AI讓行銷素材再升級

創業小聚

更新於 2023年05月16日13:20 • 發布於 2023年05月17日02:00 • 張鈺鈴

2022年,從Midjourney、Stable Diffusion 2.1、Open AI的DALLE-2到Google開發的Imagen,圖像生成AI工具突飛猛進,不僅為內容創作帶來更多應用與可能性,也讓世界瞬間進入德國藝術家Joseph Beuys口中「人人都是藝術家」的時代。

但是,即使這些生成式AI模型再強大,還是有美中不足之處,比如畫不好真人的「手」,而且還沒辦法在生成圖像時寫出指示的正確文字,這個痛點也成為了生成式AI運用在品牌行銷、廣告設計時的阻礙。

如今,這個令行銷人員頭痛的問題被Stability AI解決了,它與旗下AI研究實驗室DeepFloyd新推出的AI模型DeepFloyd IF已經能在生成圖片上,正確地為海報、宣傳圖寫上品牌名稱、資訊和各種標語,將圖像生成AI推向了更高的境界。

Stability AI做到了多數圖像生成AI都做不到的「寫字」,它是怎麼辦到的?

DeepFloyd IF這款圖像生成模型,根據超過10億個圖像和文本數據進行複雜訓練,使用模組化方式來生成AI圖像。和其他AI模型一樣,DeepFloyd IF除了能透過文字指令生成圖像,更可以幫使用者在圖像上寫出他們想要的文字。

《Meet創業小聚》實測了DeepFloyd IF在圖片中生成文字的精準度,並與Stable Diffusion 2.1相比較。當給予兩種模型同樣的指示:「一個亞洲女性,穿著一件寫有Meet白色字體的粉紅色短袖T-shir」,能看出Stable Diffusion 2.1生成的圖像不僅不完整、字母也是拼錯的,相較之下,DeepFloyd IF生成的圖像不僅完整度高、字母顏色和拼字都正確。

實測DeepFloyd IF在圖片中生成文字的精準度,並與Stable Diffusion 2.1相比較。當給予兩種模型「一個亞洲女性,穿著一件寫有Meet白色字體的粉紅色短袖T-shir」的同樣指示,Stable Diffusion 2.1生成的圖像不完整、字母拼錯,而DeepFloyd IF生成的圖像不僅完整度高、字母顏色和拼字都正確。

DeepFloyd IF的誕生為行銷素材的生成帶來更多選擇。根據聯盟行銷平台Authority Hacker發表2023年行銷產業AI現狀報告來看,在接受調查的3,812位行銷人員中,高達75%都開始採用AI工具,可見將AI運用在行銷已成常態。

能為品牌生成有正確名稱、資訊圖片的DeepFloyd IF,不僅更適用在LOGO設計、網頁設計、海報、廣告以及迷因,它還有一項圖像生成圖像的功能,透過保留圖片地最初構圖,能根據修正的文字指示生成不同樣式、風格的相似圖像,讓圖片素材做到多樣化使用。

DeepFloyd IF的模型為何能做到連DALLE-2、Stable Diffusion 2.1都做不到的,生成精準文字和相似圖像的功能呢?

DeepFloyd IF採用了擴散模型,該模型讓DeepFloyd IF在生成圖像時能進行多次去除圖像雜訊的過程,透過先產生64x64像素的低畫質圖片,再進一步從大量圖片資訊庫中抓取指示需要的部分,反覆去除、修正不必要的圖像雜訊,最中產生出1024x1024像素的高品質圖像。

DeepFloyd IF還有一項圖像生成圖像的功能,能保留圖片的最初構圖,再根據更多的文字指示生成不同樣式、風格和細節的相似圖像。

目前,藝術生成工具NightCafe是唯一取得DeepFloyd IF早期使用許可權的平台,在NightCafe上,用戶可以透過DeepFloyd IF製作免費、有限數量的創作作品。NightCafe執行長Angus Russell在接受《TechCrunch》採訪時分享,他認為DeepFloyd IF將能在AI生成圖像中脫穎而出,因為它擁有了能生成清晰文字的關鍵能力。

再度為圖像生成AI開啟新篇章的Stability AI,目前還沒有將這款模型商用的打算,它在HuggingFace上提供了DeepFloyd IF試用版本,並以開源的形式運作,希望讓大眾都能使用到這個模型。其實,Stability AI的創辦理念,原本就是建立在「打造一個統一的開源程式碼」之上,而這必須從創辦人Emad Mostaque的故事說起。

看見科技落差,Stability AI創辦人希望讓人人都能使用AI

Emad Mostaque在接受金融科技公司Mercury的訪談時,分享了自己為何踏入AI創業的原因。

在約旦出生、英國長大,被診斷有亞斯伯格症候群和過動症的Emad Mostaque,2005年從牛津大學畢業之後,在英國多家對沖基金公司工作了13年。他表示,在漫長的職業生涯中,自己總是不斷的反思與思考社會現狀,他注意到了世界上許多不平等以及科技落差的問題,Emad Mostaque問自己:「面對這樣的問題,為什麼不做一個免費的開源平台、讓人們之間可以共享學習呢?」他因此踏上了創業之路,希望透過提供更平等的工具和服務,來降低這些社會差距。

Emad Mostaque注意到世界的不平等、科技落差等問題,他問自己:「為什麼不做一個免費的開源平台、讓人們之間共享學習呢?」這成為了他創業以及創辦Stability AI的原因。

2019年,Emad Mostaque率先創立了Symmitree,幫助非洲和其他貧困地區加速數位化推動,為當地企業提供低成本的SaaS工具,比如身份認證、數據統計等。

創辦Symmitree不久後,Emad Mostaque看見了2010年代末大數據、深度學習技術爆發而迎來的AI熱潮,他對AI感到興奮,但同時Emad Mostaque又再度想到科技落差的問題:「除非進入大型科技公司或學術機構,不然普通人是難以接觸到AI科技的。」為了消弭這樣的科技落差,他再度開啟第二次創業,以讓人人都能使用AI為目標,創立了Stability AI。

Stability AI正積極募資,預計在未來幾年內規劃IPO

在2020年底創立的Stability AI,剛成立就獲得超過1億美元的募資金,由Coatue和Lightspeed Venture Partners領頭,估值來到10億美元。Emad Mostaque在《Bloomberg》訪問中分享,他們為大眾提供的開源版本已經擁有超過150萬位用戶,累積至今創建了超過1.7億張圖像。

《Bloomberg》的報導也提到,Stability AI目前正在尋求資金,希望能籌集到40億美元的募資。不久前,在舊金山舉行的Cerebral Valley AI大會上,Emad Mostaque表示,Stability AI正規劃在未來幾年內進行IPO,這也可能是他們現在積極籌募資金的原因。

此外,Emad Mostaque也是支持監管AI的倡議者之一,今年3月,他與數百位著名的AI專家、科技企業家和科學家一同簽署了「暫停AI開發」連署,Emad Mostaque認為:「OpenAI應該更加透明並且要受到監管,因為我們目前都不清楚什麼是正確的AI的治理,以及AI運作透明的條件。」他對AI應該被適當監管的認同,也呼應了當初創立Stability AI的初衷,亦即要讓這項技術不被科技巨頭掌控,並且要讓人人都能享有使用這項科技的權利。

參考資料:[TechCrunch]、[Marktechpost]、[Voicebot.ai

延伸閱讀

Adobe推出生成式AI模型!Photoshop 、Illustrator新功能曝光,還解決版權問題?
「給AI目標的終究還是人!」MoBagel瞄準生成式AI運用將推新產品DeLAbs Design AI
成為創作者的靈感百寶箱!Same Energy開發AI圖像搜索引擎,用「照片」當作搜尋關鍵字
別將想法畫在同一張紙上!將思路圖像化,更要以「3C」思維詮釋

查看原始文章

更多科技相關文章

01

【張瑞雄專欄】機器人項莊舞劍,志在?

Knowing
02

美最高院推翻關稅川普反擊 歐盟促美履行協議

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...