字節跳動開發 OmniHuman-1 深偽生成模型，一張照片就能製作超擬真影片

就在深偽技術（deepfake）成為當前詐騙、打擊對手、影響選情的強大工具之際，TikTok 母公司字節跳動（ByteDance）開發了一款名為 OmniHuman-1 的深偽影片生成工具。儘管該工具仍處於研究論文階段，但該公司所展示的範例卻很驚人：只需一張照片和一段音訊，便可為特定人物生成十分逼真、自然且不會讓人產生「恐怖谷效應」的深偽影片。

就在今年 2 月，才剛爆發一名金融從業者在虛擬會議中遭到 AI 深偽詐騙攻擊的事件，結果和他一起開會的是假冒他們英國分公司財務長與其他同仁的深偽虛擬人物，他最終依照會議指示一共向詐騙集團匯款 2 億港幣（約新台幣 8.4 億元）。除了詐騙外，深偽技術更成了惡意人士試圖影響選情抑或污蔑競選對手名聲的利器。

讓愛因斯坦等名人照「動」起來，還能為既有影片進行「加工」

儘管如此，字節跳動也在 2 月初發表了有關自家開發 OmniHuman-1 深偽影片生成模型的研究論文。該模型讓深偽影片的製作變得更簡單容易，只要一張任何長寬比的照片（肖像、半身照或全身照）以及一段音訊，便能輕鬆生成身處各種場景的栩栩如生影片。

除了能生成特定人物的深偽影片之外，這款 AI 工具還能編輯現有影片，甚至令人嘆為觀止地改變人物的肢體動作。從該公司在 Github 上展示的範例深偽影片，包括在黑板前講課的深偽愛因斯坦以及各種深偽 TED 演講，莫不展現極高的擬真度與說服力。

據報導，OmniHuman-1 是基於 19,000 小時「未公開來源」的影片內容訓練而成，這意味著字節跳動的訓練素材很有可能從網路或其他平台（無論是否受版權保護）獲得。

再弱的訊號也能生成超擬真影像，克服 AI 界長久難以解決的人物手勢難題

字節跳動研究人員在論文中寫道：「我們提出了一種端到端的多模態條件式人物影片生成框架 OmniHuman，該框架可根據單張人物圖像和動作訊號（例如只有音訊、只有影片，或音訊與影片的結合）生成人像影片。」

他們進一步指出，他們在 OmniHuman 中引進所謂多模態運動條件混合訓練策略，這使得模型能夠從混合條件的資料擴展中受益。這克服了先前端到端方法因缺乏高品質資料而面臨的問題。尤其在基於弱訊號輸入（特別是音訊）生成超擬真人物影片方面，OmniHuman 顯著優於現有技術。

OmniHuman-1 的另一個特性是，只要提供的參考影像品質和解析度愈高，其生成的效果就更好。不僅如此，從範例影片中可以看到，這些深偽影像不僅能說話，還能用雙手輔助表達，換言之，它似乎具備如何正確處理手勢的能力，這可是當前 AI 影像技術長久以來所面臨最眾所周知的難題。

ByteDance’s Deepfake Tool Creates Convincing Videos From One Photo

（首圖來源：omnihuman-lab）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

讓愛因斯坦等名人照「動」起來，還能為既有影片進行「加工」

再弱的訊號也能生成超擬真影像，克服 AI 界長久難以解決的人物手勢難題