【打造機器人訓練場】Google 發表世界模型 Genie 3,如何為機器人創造「Move 37」時刻?
Google DeepMind 最新發表的世界模型 Genie 3,被視為邁向人工通用智慧(AGI)的關鍵里程碑。透過建構具物理一致性的虛擬世界,Genie 3 協助 AI 模型學會「如何在世界中行動」,突破體現智慧(embodied intelligence)發展的核心挑戰。
相較於前代 Genie 2 僅支援 10 秒互動,Genie 3 將探索時長延長至數分鐘,大幅提升 AI 在模擬環境中累積經驗、試錯與學習的能力,為打造強大「世界模型」奠定基礎。
DeepMind 指出,若 AI 要具備與人類相似的推理與決策能力,必須在可操作、可感知的環境中接受訓練,Genie 3 正是其「world-as-simulator」策略的核心成果,意即讓 AI 代理能在虛擬世界中執行多步驟任務,進而銜接現實應用。
透過這樣的模擬場景,AI 不再只是回應輸入資訊,而是能主動探索、規劃、處理不確定性,並從錯誤中學習,這些正是 AGI 所需的能力。
Genie 3 的關鍵突破
Genie 3 可以根據使用者輸入的文字提示,即時生成 720p、每秒 24 幀的 3D 互動場景,同時支援數分鐘的沉浸式探索與操作體驗。無論是在森林中搭建帳篷還是滑雪,Genie 3 都可以一鍵生成,使用者也能控制角色在生成環境中移動與探索。
Genie 3 也允許使用者在生成的 3D 場景中即時改變天氣、加入物件,藉此掌握多樣的「如果……會怎樣」情境,讓開發者與研究人員能在單一場景模擬緊急狀況、異常情節或多樣決策路徑。
另一方面,不同於一般圖像生成器,Genie 3 能逐幀生成並記憶一分鐘左右的視覺歷史,確保物體、場景與動作邏輯上前後呼應,這也是 AGI 發展的關鍵能力之一。
Genie 3 為什麼有機會為機器人帶來「Move 37」時刻?
Genie 3 為產業帶來的創新價值,首先可能體現在 AI 機器人領域。對 AI 機器人而言,理解世界不只是透過影像辨識,更需要在環境中「行動」與「預測」。因此 Genie 3 提供的虛擬訓練場,可以助力機器人在無實體風險、無硬體耗損的情況下模擬與試錯,並透過角色控制與即時回饋,讓模型不只學會「怎麼動作」,更理解「為什麼這麼做才有效」,補足傳統文字、圖像或語言模型難以提供的行動直覺。
相較靜態數據訓練,Genie 3 支援多步驟任務與環境變化,讓 AI 在任務失敗或環境變動時,能發展替代策略並重新規劃路徑。例如 DeepMind 展示的通用代理 SIMA,在 Genie 3 創建的倉庫場景中能自主避障、完成多步驟操作,展現未來 AI 在複雜實體環境中自主行動的潛力。
由於真實世界訓練成本高、風險大且情境有限,Genie 3 可視為虛擬的「現實世界實驗室」,讓研究者模擬稀有情境,強化機器人對未知變化的應對能力。DeepMind 認為, Genie 3 有望為機器人帶來「Move 37」時刻——就像 AlphaGo 當年擊敗人類的關鍵一手棋,未來 AI 機器人也可能在模擬環境中發展出超越人類想像的行動策略。
此外,Genie 3 也適用於自駕車訓練,像是在模擬街道中測試突發路況,這個當前業界急需突破的訓練瓶頸,可能會因為 Genie 3 的誕生加速實現。
未來 Genie 3 的巨大應用潛力
DeepMind 表示,Genie 3 未來的應用潛力遠不止於 AI 訓練平台,還可能成為教育、創作、遊戲與科學模擬等領域的重要工具。例如學生可以藉由輸入歷史情境進入模擬場景,創作者也能快速建立概念場景原型。
雖然 Genie 3 展現巨大應用潛力,但目前仍處於早期開發階段,僅限受邀學者與創作者使用,也面臨物理模擬仍不完美、互動時長有限、真實世界重現性不足等挑戰。儘管如此,Genie 3 的出現已讓外界一窺 AGI 的雛形,並對未來 Genie 3 的可用性與功能,充滿想像及期待。
*本文開放合作夥伴轉載,資料來源:《TestingCatalog》、《TechCrunch》、Google DeepMind、《The Guardian》,首圖來源:Google DeepMind。