告別遙控示範?NVIDIA 研究發表機器人世界模型 DreamDojo,模擬與真實相關性達 99.5%
長期以來,機器人的學習高度依賴遙控操作與實體示範資料,但這種方式成本高昂、規模受限,也難以涵蓋真實世界的複雜情境。如今,NVIDIA 領導的研究團隊與加州大學柏克萊分校、史丹佛大學等學術機構合作,正式發表了名為 DreamDojo 的全新機器人世界模型,讓機器人先「看人類怎麼做」,再學會預測與行動。
該研究團隊打造了迄今規模最大的世界模型預訓練資料集 DreamDojo-HV,其中包含了 44,000 小時第一人稱視角的人類活動影片。根據研究團隊,DreamDojo-HV 的規模是先前同類資料集的 15 倍,涵蓋的技能數量多出 96 倍,場景數量甚至超出 2,000 倍。
透過學習涵蓋家庭、零售、維修等日常生活場景的影片,DreamDojo 能夠理解物理世界的運作邏輯與物體互動的因果關係,成為首個在訓練後能對多種未見過物件與環境展現強大適應能力的機器人世界模型。
導入「潛在動作」,將人類經驗轉化為機器人技能
DreamDojo 採用雙階段訓練架構。首先在預訓練階段,系統面臨的最大挑戰是人類影片通常缺乏精確的動作標籤。為此,研究團隊開發了「連續潛在動作」(Continuous Latent Actions)技術作為統一的代理標籤。這項技術能從影片幀數的變化中自動提取語義上有意義的動作特徵,讓模型在沒有標註的情況下,也能學習人類如何與物體互動以及其物理後果。
在獲得通用的物理知識後,模型進入針對特定機器人硬體(如 Fourier GR-1、Unitree G1 等)的後訓練階段。透過少量的機器人特定數據微調,DreamDojo 能將從人類影片中學到的通用物理法則,映射到機器人的具體操作上。其實驗顯示,這種方法讓機器人能夠在面對從未見過的物體或環境時,依然能做出符合物理邏輯的反應,展現出泛化能力。
透過蒸餾技術實現即時推論,加速企業部署與測試
為了讓世界模型具備實用價值,運算速度至關重要。根據研究,初始的基礎模型雖然精確但推論速度較慢(約 2.72 FPS),難以應用於即時任務。因此,研究團隊導入了一套自動回歸蒸餾(Autoregressive Distillation)流程,將模型轉化為只需極少步數即可生成影像的學生模型。這使得 DreamDojo 能以 10.81 FPS 的速度即時運行,並支援超過 1 分鐘的長時程穩定模擬。
對企業而言,機器人部署最大的痛點之一,在於訓練與測試成本過高。傳統方式往往需要蒐集大量實體示範資料,並反覆在現場驗證,導致導入週期動輒以年計算。DreamDojo 則試圖以「先模擬、後實測」的方式重構流程。研究團隊指出,該系統可用於政策評估(policy evaluation)與模型導向規劃(model-based planning),企業能先在虛擬環境中測試各種策略,再決定是否進入實體部署。
數據顯示,DreamDojo 在模擬環境中的成功率與真實世界的成功率呈現高度線性相關(Pearson 相關係數達 0.995)。此外,該系統還支援即時遠端操作,操作員可透過 VR 控制器直接在虛擬世界中指揮機器人,進一步降低了數據收集與操作訓練的門檻。
儘管 DreamDojo 距離大規模商業落地仍有距離,研究團隊也坦言,在罕見動作與細微失誤模擬方面仍存在限制,但該系統已為實體 AI(Physical AI)發展奠定關鍵基礎。該研究團隊表示,相關程式碼將會對外公開釋出,但尚未公布具體時程。
立即報名 3/3「AI 智慧大工廠」論壇台北場,解密 Agentic AI 如何重塑「超自動化」工廠
*本文開放合作夥伴轉載,資料來源:《VentureBeat》、arXiv、GitHub,首圖來源:GitHub