Sim2Real 新利器?Runway 首個世界模型登場,支援 Python SDK 串接 VLA 機器人模型
世界模型競賽再添新玩家。以影片生成技術聞名的 AI 新創 Runway,正式發表其首個世界模型 GWM-1,試圖從「生成影像」跨足「模擬現實」領域,並鎖定機器人與科學模擬等新市場。該公司更宣稱,相較於 Google 的 Genie-3 等競爭對手,GWM-1 具備更高度的通用性。
Runway 表示,GWM-1 透過逐幀預測的方式運行,在每一個畫面中同時考量幾何、光線、物理規律與時間推進,讓模型能在虛擬環境中預測世界接下來會發生什麼。Runway 將 GWM-1 定位為通用世界模型(General World Model),可在機器人、生命科學等不同領域中,為 AI 代理提供訓練與推理所需的模擬場景。
Runway 執行長:邁向「通用模擬」的關鍵一步
所謂的「世界模型」,是指 AI 能建立一套理解世界運作法則的內部模擬系統。這讓 AI 具備推理、規劃及行動能力,無需在現實中經歷所有的場景訓練。Runway 技術長 Anastasis Germanidis 指出,從高品質影片生成出發,直接教模型「預測像素」,是通往通用模擬能力的最佳路徑,「只要規模足夠大,數據足夠豐富,就能構建出一個對世界運行方式有充分理解的模型。」
目前 GWM-1 建立在 Runway Gen-4.5 架構之上,採自回歸(autoregressive)方式逐幀生成,目前已支援相機運鏡、機器人指令與音訊等即時互動操作,未來計劃整合更多感測與控制訊號。雖然 Runway 未刻意強調 AGI(通用人工智慧),但執行長 Cristóbal Valenzuela 形容,GWM-1 是邁向「通用模擬(General World Simulation)」的一大步。
為了滿足不同應用需求,GWM-1 目前拆分為三個針對性模型:GWM-Worlds、GWM-Robotics 與 GWM-Avatars,未來目標是統一為覆蓋多種動作空間的基礎模型。
一、GWM-Worlds:即時環境模擬沙盒
根據 Runway,GWM-Worlds 是一個用於即時環境模擬的世界模型。使用者可以透過文字提示或圖片設定一個靜態場景,模型便會在 720p、24fps 的條件下,隨著鏡頭移動即時生成延伸空間,同時維持場景在長時間移動下的空間一致性。例如,當使用者在虛擬城市中轉身、前進再後退,環境中的建物與物件仍會維持合理位置,不會「跳格」或重置。
除了鏡頭運動,使用者還能定義世界中的物理規則與互動行為。例如若要求代理人騎腳踏車,模型會讓車子遵循重力待在地面;若改成飛行載具,則可以在空中自由穿梭。Runway 認為,這類環境不僅適用於遊戲前期視覺化、 VR 場景或歷史空間教學,也可作為訓練 AI 代理與機器人在現實世界行動的模擬沙盒。
二、GWM-Robotics:機器人的學習型模擬器
GWM-Robotics 則將世界模型直接用在機器人領域,是一個「學習型模擬器」。Runway 表示,該模型可根據機器人動作輸出影片序列,用於產生大量合成訓練資料,補強既有的真實世界資料集。這些合成資料可在多個維度上做變化,包括新物體、不同任務指令、天候或障礙物配置,讓機器人策略在虛擬環境中先經過密集測試與擴增,再部署到實體設備。
在政策評估上,GWM-Robotics 也支援「反事實生成」,開發者可以在模擬世界中測試同一套控制策略在不同條件下是否會違反安全規則或操作準則,而不用直接冒著撞毀機器人或造成人員風險。
Runway 已提供一個 Python SDK,讓開發者透過 API 呼叫這套世界模型,生成多視角、長序列的動作條件影片,並且與現有的 VLA 模型串接。
三、GWM-Avatars:具備互動能力的數位分身
GWM-Avatars 則主攻人形數位分身。這是一個由語音驅動的互動影片生成模型,可為寫實或風格化角色生成自然的表情、眼神、唇形同步與肢體動作,並宣稱且在長時間對話過程中維持穩定品質。
Runway 視其為打造個人化導師、客服代表或教學角色的基礎能力,未來將把 GWM-Avatars 併入 Runway 的網頁產品與 API,讓第三方服務可以嵌入這類互動角色。
搶攻企業應用,正面對決科技巨頭
Runway 先前以影片生成模型 Gen 系列在影視與廣告產業打出名號,本月稍早發表的 Gen 4.5 已在第三方基準 Video Arena 排行上超越 Google 與 OpenAI。不過,Runway 進入的世界模型領域競爭激烈,對手包括 Google、NVIDIA 等大型科技公司,以及多家新創。
《TechCrunch》報導,Runway 正積極與多家機器人公司和企業洽談,探討如何將 GWM-Robotics 和 GWM-Avatars 應用於實際的開發與訓練流程。不過《Ars Technica》分析,相較於影片生成市場的先行者優勢,Runway 在世界模型戰場並無絕對護城河,因此如何憑藉產品表現與開發者生態突圍,仍有待觀察。
*本文開放合作夥伴轉載,資料來源:TechCrunch、Arstechnica、Runway,首圖來源:Runway