請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

阿里巴巴發表「夾口型」AI 模型 可以把人像配合聲音生成說話動畫

Unwire.hk

發布於 2024年03月02日14:30

AI 生成技術最近繼續不斷進步,最近阿里巴巴就發表全新的人像動畫生成模型 EMO,輸入人像照片和聲音後,就可以自動生成生動的影片,口型甚至表情也會隨着聲音自然調節。

阿里巴巴的「智慧運算研究所」最近發表論文介紹其 EMO (Emote Portrait Alive) 模型,這個模型可以透過分析照片和聲音,將靜態人像照片變成配合聲音的說話或者唱歌影片。從嘴巴的動作到表情和眨眼等,都可以配合內容調整,展現一定的情緒表現,使其更加自然。

據論文表示,今次 EMO 的開發使用了 Audio2Video Diffusion 模型配合超過 250 小時的談話影片來訓練,除了普通話之外也支援其他的語言,在提取臉部特徵之後處理聲音的變化。目前 Nvidia 也有類似的工具 Audio2Face,不過今次 EMO 的示範影片就更加自然,特別是日本動畫風格的應用確實效果不錯,在日後的發展下可能很快會有更強勁的工具面世。不過 EMO 並沒有公開試用,因此實際是否直接生成,還是需要調節才有這樣的效果仍然是個謎。

來源:阿里巴巴

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

「SQUARE ENIX FEBRUARY SALE」開催中!「靈視異聞 FILE23 本所七大不可思議」可以銅板價遊玩

Saiga NAK

Logicool G「G325 LIGHTSPEED」將於 2 月 26 日上市!重量僅 212g 的輕量電競耳機

Saiga NAK

【開箱評價】Laifen T1 Pro 高速電動鬚刨

TECH RITUAL
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 1

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...