請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Sora實測|用文字生成的「魔幻MV」出爐,準確度拚過Runway、Pika?

數位時代

更新於 2024年05月06日07:44 • 發布於 2024年05月06日07:40

OpenAI今年2月發布影片生成工具Sora,宣稱可透過文字生成影音內容,由於應用範疇廣泛,引起全球相關產業人士關注。據外媒《Financial Times》報導,在人類一定的提示之下,Sora已經可以應用在廣告、音樂MV的實作過程,以加快創意領域工作者的溝通過程。

從事廣告業的品牌顧問班揚(Charlotte Bunyan)指出,她在為知名超市製作廣告影片時透過Sora實作,並同時比對同為文字生成影音內容的AI模型Runway和Pika的功能,這兩家公司都聲稱只需幾個詞彙提示,就能生成AI影片內容。

班揚指出,無論是Sora、Runway或Pika,都能透過「將想法可視化」來加快交流創意想法的效率,但Sora對提示內容的呈現更加準確。但她也強調,現階段無論使用何種AI模型,生成內容都需要人類進一步處理。

報導中也指出,獨立藝術家Washed Out的新歌《The Hardest Part》MV,是透過Sora製作的最長作品。據悉,MV中的影片,是由Sora依據詳細的文字提示所生成的55個片段拼接而成。但這些片段的連貫性仍有瑕疵。例如同一名角色在不同的影片秒數中長相不一。

對此,特里洛在推文中指出,這些差異反而增強了影片的奇幻性。他認為Sora能夠強化生成內容的創意元素,「但不應成為主導工具。」

《數位時代》曾報導過Sora亮點,以下是原報導:

從和人無礙對談、寫程式到通過Google的工程師面試,OpenAI的生成式AI已經展露過眾多能力,現在他們又掌握了一項新技能:拍影片。新亮相的AI模型「Sora」讓用戶能夠用短短一句話,生成長達1分鐘的擬真影片。

「為您介紹Sora,我們的文字轉視訊模型。Sora可以在保證畫面品質及遵守用戶提示詞的前提下,生成長達1分鐘的影片,」OpenAI在官網中表示。

生成影片極具真實感,OpenAI揭露最新影像生成技術

生成影片的AI其實並不新鮮,從Google、Meta等科技巨頭到成立不滿一年的新創Pika Labs等公司,都發表過生成影片的AI技術。而Sora最大的特點在於極其逼真,外媒《Wired》聲稱,這是沒有在其他影片生成AI模型中看見過的真實感,並且生成的影片長於其他模型。

根據OpenAI在官網上的介紹,Sora能夠生成包含多名角色、特定動作類型以及大量細節的複雜場景,而且AI不僅了解用戶在提示詞所說的各種物體,還知道這些物體是如何存在於現實世界,進而營造出讓人驚豔的逼真感受。

另外,Sora也對語言有著深入理解,可以準確的呈現提示詞所說內容,生成吸引目光的飽滿角色,且可以在一段影片中建立多種不同的鏡頭,並精準保留角色及視覺的風格。

OpenAI也在官網上揭露了大量演示影片,例如一名女子走在東京街頭的短片,其提示詞為:

「一名穿著時尚的女子走在充滿溫暖霓虹燈及招牌的東京街頭。她身著黑色皮夾克、紅色長裙及黑色靴子,拎著一個黑色包包,戴著太陽眼鏡,擦著紅色口紅,走起路來自信又隨性。潮濕的街道反射出七彩燈光,行人熙來攘往。」

(A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)

這段1分鐘的短片裡,雖然從招牌文字、道路布局到路人過於平滑的移動等等存在不少破綻,但乍看之下仍然極為逼真,若是焦點放在時尚女子身上的話,或許一時半會沒辦法注意到這是全然由AI生成的影片。

且不光是具有現實感的現代影片,在提示詞:「淘金熱時的加州歷史鏡頭。」(Historical footage of California during the gold rush)裡,Sora就為影片打上了充滿年代感的濾鏡,不過包含建築布局等仍有一些仔細看便能發現的不合理之處。

OpenAI指出,目前的模型存在弱點,難以精準模擬複雜場景裡的物理原理,並且不太能理解因果關係,假如要求Sora生成一個人吃餅乾的影片,可能畫面中咬了一口餅乾後,餅乾仍然完好無缺。同時Sora還有些左右不分、難以精確呈現隨時間變化的事件等問題。

至於生成這樣一部充滿真實感的影片需要花上多長時間?OpenAI沒有公佈具體用時,僅向媒體透露所費時間大約是「出門吃一餐墨西哥捲餅」,

Sora還有些功能沒有對外展示,例如從一幅圖像生成短片,或者替既有影片填補上缺少的幀數,甚至延伸內容。OpenAI研究人員比爾.皮布斯(Bill Peebles)表示,「這是一種提高講故事能力非常酷的方式。你可以畫出想法,然後使其成為現實。」

目前Sora還無法撼動電影產業,因為每次生成的內容多少有所差異,不可能將120部1分鐘影片串成電影,但對於TikTok等短影音平台來說,將是顛覆性的新工具,即使是普通民眾也能利用AI技術生成高品質的短片。

一般民眾使用Sora還要再等等!OpenAI正與各界合作防範安全問題

不過如此逼真的影像生成能力,若被有心人士用來生成假消息,該怎麼辦?這也是為何OpenAI還沒有公開發布Sora的原因之一,目前該模型僅提供攻擊模擬團隊(red team)和少數藝術家、設計師及電影製作人使用。

OpenAI強調,目前他們正在開發能夠檢測假消息的工具,並計畫嵌入C2PA的後設資料(metadata),例如先前在Dall-E 3中,生成的圖像檔案資料上就會顯示該圖片是使用Dall E打造。除此之外,OpenAI聲稱也將一併包含Dall-E 3既有的使用規範,拒絕生成名人,以及暴力、性或仇恨內容。

OpenAI聲稱,他們正在與各國政府、教育人士及藝術家合作,以了解各界的擔憂及如何正向使用。「就如我們無法預測所有正向的使用方式,我們也無法預先知道所有惡意使用方式。」他們在官網上表示,「這也是為什麼我們認為從在現實世界的使用中學習,打造及發布更安全AI系統的關鍵。」

資料來源:OpenAIWiredThe Verge

延伸閱讀

當AI Pin大秀肌肉,為什麼OpenAI、韓國巨頭Kakao卻看上Rabbit R1?
日本芥川賞得主自爆:小說5%內容AI操刀!為何評審說她靠ChatGPT創作沒問題?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多科技相關文章

01

白話科技|低軌衛星是什麼?金寶、兆赫股價狂飆,一次盤點低軌衛星概念股

數位時代
02

這裡看Disney+更便宜 中華電信省破2千元

卡優新聞網
03

路透:北京憂國安風險 令企業停用美國以色列資安軟體

路透社
04

馬斯克xAI陷全球監管風暴 Grok生成深偽不雅內容

路透社
05

日經亞洲:中國正在擬定輝達H200晶片採購規則

路透社
06

【林宏文專欄】晶圓缺貨及AI智慧眼鏡 兩則台積電、英特爾、臉書新聞,看AI世代的移民與新住民

Knowing
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...