生成式 AI 湧入影像賽道！OpenAI、Google 陸續投入，它們各自強在哪？

自生成式 AI 發展以來，從文字、圖片到音樂，它幾乎能夠生成所有類型的內容，先前《麻省理工科技評論》曾預測，生成式 AI 的第二波熱潮將再度襲來，而在風口浪尖上的，是影片生成工具。

OpenAI Sora 粉墨登場

廣告（請繼續閱讀本文）

2 月 16 日，OpenAI 發布了幾個生動、擬真的短影片，內容包括幾頭長毛猛獁象在雪地中前行、海浪拍打著懸崖邊緣，也有人們的日常生活，比如讀書或走在城市街道上的畫面。這些影像是由 Oepn AI 執行長艾特曼（Sam Altman）上週在 X 上蒐集網友的文字提示後，透過旗下影像生成模型「Sora」製作而成。
OpenAI 指出，Sora 對語言有深入的理解，能夠準確地解釋用戶提示、產生充滿情感的影片，也能夠在一支影片中創建多個鏡頭，準確地保留角色和視覺風格。

不過 Sora 目前對複雜場景的描繪，以及特定因果關係的理解還有待加強。例如影片中有人咬了餅乾，可是後面場景出現的餅乾卻還是完好如初；或者影片中的人物沒有跟著鏡頭的軌跡移動；偶爾也會搞錯文字提示的細節，像是左右方向之類的。

各大巨頭都投入 AI 生成影片，它們各自強在哪？

廣告（請繼續閱讀本文）

不只 Open AI，各家科技巨頭，像是 Google 等公司都在尋求新 AI 影片生成技術的發展機會。

Google 日前發表了全新生成式 AI 模型「Lumiere」，同樣主推影片生成，除了可以用文字敘述來產生影片外，也可將圖片轉換成影片。

《The Verge》指出，Lumiere 甚至可以做到將影片轉換成不同的視覺風格，如果不知道該如何形容所希望的風格，也能附上參考圖片，讓 AI 去仿造出有著相似元素的影片，此外它也可以局部替換元件，比方說使用者想要改變影片中人物的服裝，或者做小範圍的修改，只要將想替換的區域圈選出來、輸入關鍵字，AI 就會自動修改。

去年年底，Meta 公開影片生成模型「Emu Video」，讓用戶能夠根據文字和圖像輸入來生成影片剪輯，未來打算將這個技術結合到旗下 Facebook 和 Instagram 產品中，對此，卡內基美隆大學研究生成人工智慧的教授朱俊元（Jun-Yan Zhu，音譯）表示，AI 影片生成的高可近性將使產製 TikTok 或 Reels 短影片變得更加容易。

一位從事影像編輯的工作者，看了 AI 生成的影片之後表示：「你可以看出這不是真實的影片，但如果沒人告訴我這是 AI，我會覺得是 CGI。」可見 AI 生成影片的真實程度雖不到百分之百，但確實已經進步到難以分辨機器還是人製作的階段。

AI 生成影片的隱憂：Deepfake、仇恨內容

美國水牛城大學（University at Buffalo）Media Forensic Lab 主任劉思緯（Siwei Lyu，音譯）認為，隨著像 Sora 這樣的 AI 程式不斷湧現，除了要面對影像和音檔深度偽造的現有挑戰之外，也要防範不肖份子濫用科技製作仇恨、歧視等內容。

對此，Open AI 表示：「我們也在開發有助於檢測誤導性內容的工具，比如檢測分類器，它可以分辨影片是何時由 Sora 生成的。」Google 在 Lumiere 的聲明稿中，也提出同樣的看法。

卡內基國際事務倫理委員會（Carnegie Council for Ethics in International Affairs）研究 AI 和監控技術的資深研究員米歇爾（Arthur Holland Michel）認同，使用檢測分類器是積極的做法，可以在影片發布前對影片進行分析，以標記裸露或暴力等有問題的內容。

「每當有功能更強大的產品發布時，被濫用的方式也會愈來愈多。」米歇爾說，這也是所有科技公司在推進新科技時，必須關注的課題。

資料來源：The Verge、Meta、Wall Street Journal

OpenAI Sora 粉墨登場

各大巨頭都投入 AI 生成影片，它們各自強在哪？

AI 生成影片的隱憂：Deepfake、仇恨內容

更多 科技 相關文章

更多科技相關文章