請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

字節跳動開發 OmniHuman-1 深偽生成模型,一張照片就能製作超擬真影片

科技新報

更新於 2025年02月07日13:50 • 發布於 2025年02月07日08:30

就在深偽技術(deepfake)成為當前詐騙、打擊對手、影響選情的強大工具之際,TikTok 母公司字節跳動(ByteDance)開發了一款名為 OmniHuman-1 的深偽影片生成工具。儘管該工具仍處於研究論文階段,但該公司所展示的範例卻很驚人:只需一張照片和一段音訊,便可為特定人物生成十分逼真、自然且不會讓人產生「恐怖谷效應」的深偽影片。

就在今年 2 月,才剛爆發一名金融從業者在虛擬會議中遭到 AI 深偽詐騙攻擊的事件,結果和他一起開會的是假冒他們英國分公司財務長與其他同仁的深偽虛擬人物,他最終依照會議指示一共向詐騙集團匯款 2 億港幣(約新台幣 8.4 億元)。除了詐騙外,深偽技術更成了惡意人士試圖影響選情抑或污蔑競選對手名聲的利器。

讓愛因斯坦等名人照「動」起來,還能為既有影片進行「加工」

儘管如此,字節跳動也在 2 月初發表了有關自家開發 OmniHuman-1 深偽影片生成模型的研究論文。該模型讓深偽影片的製作變得更簡單容易,只要一張任何長寬比的照片(肖像、半身照或全身照)以及一段音訊,便能輕鬆生成身處各種場景的栩栩如生影片。

除了能生成特定人物的深偽影片之外,這款 AI 工具還能編輯現有影片,甚至令人嘆為觀止地改變人物的肢體動作。從該公司在 Github 上展示的範例深偽影片,包括在黑板前講課的深偽愛因斯坦以及各種深偽 TED 演講,莫不展現極高的擬真度與說服力。

據報導,OmniHuman-1 是基於 19,000 小時「未公開來源」的影片內容訓練而成,這意味著字節跳動的訓練素材很有可能從網路或其他平台(無論是否受版權保護)獲得。

再弱的訊號也能生成超擬真影像,克服 AI 界長久難以解決的人物手勢難題

字節跳動研究人員在論文中寫道:「我們提出了一種端到端的多模態條件式人物影片生成框架 OmniHuman,該框架可根據單張人物圖像和動作訊號(例如只有音訊、只有影片,或音訊與影片的結合)生成人像影片。」

他們進一步指出,他們在 OmniHuman 中引進所謂多模態運動條件混合訓練策略,這使得模型能夠從混合條件的資料擴展中受益。這克服了先前端到端方法因缺乏高品質資料而面臨的問題。尤其在基於弱訊號輸入(特別是音訊)生成超擬真人物影片方面,OmniHuman 顯著優於現有技術。

OmniHuman-1 的另一個特性是,只要提供的參考影像品質和解析度愈高,其生成的效果就更好。不僅如此,從範例影片中可以看到,這些深偽影像不僅能說話,還能用雙手輔助表達,換言之,它似乎具備如何正確處理手勢的能力,這可是當前 AI 影像技術長久以來所面臨最眾所周知的難題。

(首圖來源:omnihuman-lab

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

台股開盤下跌500點 台積電開1840元

NOWNEWS今日新聞
02

冠軍不是輝達!2026全球最有價值品牌出爐 台積電排名曝光

三立新聞網
03

台灣女首富是她!郭台銘重返首富寶座 她擁480億成台灣最富有女性

鏡週刊
04

市值88億、據點遍120國!「股王」大廠退出台股 結束15年掛牌史

鏡報
05

旺宏迎接 eMMC 史詩級缺貨潮,法人凱基投顧上調目標價至天價 300 元

科技新報
06

國人元月刷出4281億元續創同期新高 玉山銀單月停卡爆出123萬張

anue鉅亨網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...