科技

阿里巴巴發表「夾口型」AI 模型 可以把人像配合聲音生成說話動畫

Unwire.hk
發布於 03月02日14:30

AI 生成技術最近繼續不斷進步,最近阿里巴巴就發表全新的人像動畫生成模型 EMO,輸入人像照片和聲音後,就可以自動生成生動的影片,口型甚至表情也會隨着聲音自然調節。

阿里巴巴的「智慧運算研究所」最近發表論文介紹其 EMO (Emote Portrait Alive) 模型,這個模型可以透過分析照片和聲音,將靜態人像照片變成配合聲音的說話或者唱歌影片。從嘴巴的動作到表情和眨眼等,都可以配合內容調整,展現一定的情緒表現,使其更加自然。

廣告(請繼續閱讀本文)

據論文表示,今次 EMO 的開發使用了 Audio2Video Diffusion 模型配合超過 250 小時的談話影片來訓練,除了普通話之外也支援其他的語言,在提取臉部特徵之後處理聲音的變化。目前 Nvidia 也有類似的工具 Audio2Face,不過今次 EMO 的示範影片就更加自然,特別是日本動畫風格的應用確實效果不錯,在日後的發展下可能很快會有更強勁的工具面世。不過 EMO 並沒有公開試用,因此實際是否直接生成,還是需要調節才有這樣的效果仍然是個謎。

來源:阿里巴巴

廣告(請繼續閱讀本文)

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

更多 科技 相關文章

兆基創意書院被黑客入侵 伺服器被鎖、涉及逾 600 學生家長教職員個人資料
Unwire.hk
iPhone 16 Plus 或成最末代 Plus 機型 以 iPhone 17 Slim 薄版取代
流動日報
iPhone 16 Pro Max 機模照片流出 比 iPhone 15 Pro Max 尺寸更大
Unwire.hk
民安隊電子搜索犬 今日大型災害模擬演習中登場
Unwire.hk
Apple 宣佈推出新功能 減少車廂內使用手機「暈車浪」感覺
Unwire.hk
iFixit 拆解 M4 iPad Pro 揭示內部奧秘
流動日報
Google 解釋 Gemini 名字由來
流動日報
傳華為減少 Kirin 9000 生產資源 將重點轉向 5nm 製程和 PC 晶片
Unwire.hk
【開箱 📦】奶黄磁軸、82 Keys 75% 佈局 AKKO MOD007B HE PC 磁軸機械鍵盤
HKEPC
Delta 遊戲模擬器緊急更新改 Icon 受 Adobe 法律威脅?
流動日報
著名 PSP 模擬器推 iOS 版 PPSSPP 正式登陸 App Store
Unwire.hk
X 正式改網址為 x.com 一直以來仍然以 twitter.com 運作
Unwire.hk
加拿大政府警告不要用 TikTok 情報機構認為數據會被中國政府存取
Unwire.hk
Galaxy Buds3 Pro 取得認證 傳聞 7 月 Galaxy Unpacked 發佈
Unwire.hk
AMD Zen 5 巨型 APU「Strix Halo」 40 CU 的 GCD 晶片 比 2 顆 CCD 還要大
HKEPC
Android 14 TV 正式版推出 新增畫中畫、節能模式等功能
Unwire.hk
Winamp 宣布即將 Open Source 期待更多開發者讓它繼續成長
HKEPC
研發 ChromeOS 整合 Android Google 開始在 Pixel 手機進行試驗
Unwire.hk
香港電話開數字人民幣錢包 登記、增值流程介紹、每日支付限額等需知
Unwire.hk
Winamp 將開放源程式碼 邀全球開發者建立創新音樂播放環境
Unwire.hk
ChatGPT 可與 Google Drive、One Drive 連動 取得用戶資料庫數據活用 AI 分析
Unwire.hk
GTA 6 定於明年秋天推出 面對質疑開發商強調「非常有信心」
Unwire.hk
留言 1
  • PN
    不太自然
    03月03日05:05
顯示全部