看過蒙娜麗莎開口說話嗎？三星開發新 AI 模型，只需幾張圖片便能造假成動態影片

要打造令人信服的 deepfakes 影片，神經網路模型往往需要經過大量數據訓練才能達成，但現在三星（Samsung）莫斯科 AI 研究中心的團隊已經開發出一種方法，只需要「少許」影像數據就能打造出可信度相當高的談話影片。但少許究竟是多少？根據團隊的描述，這個數字可以是 32 張或 8 張照片，又或者更少一些──1 張照片也行。

據了解，這款 AI 模型是使用卷積神經網路（CNNs）所打造，團隊先是使用 VoxCeleb 公開數據庫中超過 7,000 張名人圖像對演算法進行了訓練，讓 AI 關注於辨識人們臉部的「地標」特徵，像是眼睛、嘴巴形狀、鼻樑長度和形狀，它開始能以相似的做法應用在其他照片上，使照片活過來。

由於 AI 模型最少只需要 1 張照片便可以進行，這意味著歷史人物或肖像畫都能夠適用，在影片中，可以看到愛因斯坦、杜斯妥也夫斯基和夢露的著名肖像動起來，就好像他們在現代生活，被一旁友人拍下講話的畫面一樣。

▲ 想看歷史人物、畫像人物動起來的可直接移動至 4:18 處。

當然，使用越多照片的效果明顯越好，只使用 1 張照片製作的 deepfakes 影片很容易就能從背景、臉部表情的不自然看出造假痕跡，只是隨著使用的對象生活年代越早，也越難從影片中看出虛假──畢竟許多人在攝影技術普及前早已離世，並沒有留下實際的談話影片讓我們能夠對照真偽。

要說這個 AI 模型最讓人驚豔的一點，應該還是讓畫像人物也能夠動起來的部分，以知名的「蒙娜麗莎」為例，過去即使前往羅浮宮美術館朝聖，頂多也只能感覺蒙娜麗莎像從任何角度都在看著你，可沒有辦法看到蒙娜麗莎對你眨眨眼，又或者像是在談起生活瑣事。

▲ 在造假技術協助下，畫像中的人物就像被賦予了生命。

隨著 deepfakes 技術越來越進步，許多人都開始擔心相關技術被應用在惡意用途，讓未來即使看到影片、聽到聲音檔仍「眼見不能為憑」。儘管潛在疑慮仍然存在，但至少以目前來說，還未有任何 deepfakes 影片造成嚴重的混亂事件──當然，這是目前啦，未來會如何發展就不好說了。

Deepfakes are getting easier than ever to make, new research paper shows
arXiv 論文預印本－Few-Shot Adversarial Learning of Realistic Neural Talking Head Models

（圖片來源：arXiv via Egor Zakharov）

請更新您的瀏覽器

科技

科技新報