請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Google 推出影像生成模型 VideoPoet,五大功能產生直式短影音

科技新報

更新於 2023年12月25日16:49 • 發布於 2023年12月25日16:49

近來一波波影像生成模型出現,無論是貼近提示要求或在影像處理細節上,許多情況下展現出令人驚豔的高品質。Google 也不甘示弱,日前發表自主開發的大型語言模型 VideoPoet。

為了探索語言模型在影像生成中的應用,Google 引進全新大型語言模型 VideoPoet,能夠執行包括文字轉成影片、圖片轉成影片、影片風格轉換、影片修復、影片生成音訊等五大功能,而且預設產生直式短影音。

比方說,文字提示輸入「兩隻熊貓打撲克牌」,VideoPoet 產生兩隻熊貓坐在桌邊打撲克牌的短片。圖片轉成影片方面,像是上傳一張油畫圖片,畫中一艘航向大海的船遭遇雷電交加、波濤洶湧,藉由 VideoPoet 可以轉變成動圖型態。VideoPoet 也能為影片產生音訊,例如先以模型產生 2 秒短片,並嘗試在沒有任何文字提示下配上音訊,於是從單一模型就能產生影片和音訊。

▲ VideoPoet 五大功能概述。

VideoPoet 是訓練一個自回歸語言模型,透過使用多個標記器(用於影片和圖片的 MAGVIT V2,以及用於音訊的 SoundStream)學習影片、圖片、音訊、文字形式,像是透過文字和圖片輸入分解、標記,進而產生複雜的影像。

Google 目標希望 VideoPoet 能夠「any-to-any」,根據任何提示任意轉換,同時也要擴展至文字轉成音訊、音訊轉成影片、產生影片字幕等功能。

VideoPoet 將許多影像生成功能無縫整合至單一模型,而不是針對不同任務單獨訓練模型,特別在產生有趣影片和高品質動作上,展現出大型語言模型具高度競爭力的影像生成品質。

▲ 開發團隊製作一部由 VideoPoet 產生不同短影音組合而成的介紹影片。

(圖片來源:Google Research Blog

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多科技相關文章

01

英特爾先進14A製程獲青睞 特斯拉成為首個重大外部客戶

路透社
02

AI晶片需求旺 SK海力士首季獲利翻5倍創紀錄

路透社
03

韓向美議員保證 確保美國科技公司不受歧視對待

路透社
04

破解USDT詐騙困局! 思偉達攜手五大反詐協會打造幣流追蹤實戰人才

Knowing
05

台積電:擬2029年前在亞利桑那州啟用晶片封裝廠

路透社
06

Meta為訓練AI在員工電腦裝追蹤軟體 掀隱私爭議

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...