AI 浪潮下,出現更多因應不同場景需求而生的 AI 模型,例如大語言模型(LLM)、小語言模型(SLM),而可以模擬物理世界的「世界模型(LWM)」也成為各大 AI 科技巨頭布局的領域,近日 Google、NVIDIA 動作頻頻。
跟 AI 互動將更直覺!Gartner 預測到 2027 年,40% 生成式 AI 解決方案將是多模態
Google 成立新 AI 團隊,OpenAI 前員工帶隊
Google DeepMind 正在籌組一個新團隊,搶佔在世界模型市場的領先地位。Google DeepMind 的新團隊將由去年 10 月新加入、OpenAI 前 Sora 負責人 Tim Brooks 帶領,他在 1/7 於社群平台 X 宣布新團隊成立。
世界模型對於 Google 來說,是實現 AGI (通用人工智慧)的關鍵。而 Google 想要打造的世界模型,根據其職缺描述,新的團隊將和 Google 的 Gemini、Veo,以及 Genie 團隊合作,並將解決「關鍵的新問題」,同時嘗試將 AI 模型擴展到最高標準──將根據打造出來的模型建立「即時互動生成」工具,並研究這些模型如何和 Gemini 等既有的 AI 模型整合。
外媒盤點,Gemini 是 Google 最著名、用於生成文字、分析圖像的大語言模型,與 OpenAI 的 GPT-4o 匹敵; Veo 是類似於 Sora 的影片生成模型;Genie 就是世界模型,由 Google 上個月推出,可透過文字、圖片或兩者作為提示詞,模擬虛擬世界和逼真的動畫、實體,並支援前述所有元素之間的互動。未來,新團隊將結合這些模型進行研發。
就在 Google 招募新血的消息傳出沒多久,NVIDIA 也在 CES 2025 大展揭露在世界模型領域的下一步。
NVIDIA 推 Cosmos WFM,驅動機器人、自駕車訓練
NVIDIA 在美國最大國際消費性電子展 CES 上,一口氣發表一系列可以預測、產生「物理感知」影片的世界模型── Cosmos WFM(World Foundation Models)。
NVIDIA 表示,Cosmos WFM 模型在提供文字或視訊畫面的情況下,可以產生「可控、高品質」的合成數據,用來引導機器人、自動駕駛汽車等的模型訓練。
根據資料,Cosmos WFM 一系列模型都接受了來自 2,000 萬小時的現實世界真人互動、環境、工業、機器人、駕駛的資料訓練。這些系列模型共可分為三類:適用於低延遲和即時應用的 Nano、用於高性能的 Super,以及用於高品質和保真度輸出的 Ultra,參數量從 40 億到 140 億不等。
隨著許多新創、科技巨頭紛紛投入世界模型──AI 先驅李飛飛、以色列新秀 Decart 和 Odyssey,再加上 Google 和 NVIDIA 的新行動,世界模型的競爭將越來越激烈。
世界模型帶來 2 大隱憂
世界模型最明顯的應用之一,是用來打造可用於製作電影和影音遊戲的互動性媒材,或成為模擬機器人和其他 AI 系統真實訓練場景的基礎,但也引發其他產業的擔憂。
其一,世界模型可能影響人類工作機會。《WIRED》調查發現,遊戲工作室如動視暴雪解僱了數十名員工,但同時也運用 AI 來彌補員工流失。好萊塢動畫師和漫畫家工會委託的研究估計,2026 年將有超過 10 萬名電影、電視、動畫的職位被 AI 取代。
第二個隱憂,版權是尚未解決的問題。據報導,一些世界模型建立的畫面,和《俠盜獵車手》、《要塞英雄》等影音遊戲的片段十分相似。
針對版權問題,NVIDIA 向《TechCrunch》表示,為了幫助 Cosmos 學習,「我們從各種公共、私人來源蒐集了數據,並相信我們的資料使用符合法律條文和精神。而關於世界如何運作的事實──Cosmos 所學習到的──不受版權保護,也不受任何個人或企業控制。」不過,版權專家認為,這樣的聲稱不一定能通過司法審查,能否勝出取決於法院判定。
握有 YouTube 影音社群平台的 Google 則表示,它們有權利根據平台服務條款,在 YouTube 上訓練模型──但並未透露具體採用了那些影片。
【推薦閱讀】
◆ 什麼是 AI「世界模型」?為什麼李飛飛、Google、OpenAI 都紛紛投入?
*本文開放合作夥伴轉載,資料來源:《TechCrunch》1、《TechCrunch》2、SiliconAngle,首圖來源:Unsplash。