破解 AI 機器人「資料荒」!1X 如何將網路上無窮盡的影片,轉化為實體動作?
過去我們對機器人的印象,往往是必須經過工程師撰寫繁複的程式碼,或透過人類遠端遙控示範,才能執行特定的動作。但現在,這種限制可能即將被打破。由 OpenAI 投資的挪威機器人新創 1X Technologies 最近發布了全新 AI 模型 1X World Model,宣稱能讓旗下的人形機器人 Neo 透過觀看影片來理解物理世界,甚至在沒有人類直接示範的情況下,學會全新技能。
《Interesting Engineering》報導,這個基於物理學的 AI 模型,能夠結合影片數據與文字指令,讓 Neo 預測接下來該發生什麼事。簡單來說,當用戶給機器人一個指令,例如整理桌子,世界模型會先在腦海中生成一段自己完成這項任務的影片,接著透過逆向動力學模型(Inverse Dynamics Model),將這段生成的影片轉化為實際的馬達動作。這就像是機器人在實際行動前,先在腦中進行了一次沙盤推演,將數位影像轉化為實體動作。
從死背硬記進化到看片學習
這種學習方式讓機器人不再受限於預先編寫的劇本,解決了機器人領域長久以來的痛點:如何將數位的智慧轉化為可靠的物理行動。透過人類與物品互動的影片學習,Neo 能夠進一步將行為類推到陌生的環境中。在官方釋出的演示中,Neo 不僅能完成打包午餐盒等日常任務,甚至展現了在未經特定訓練下,執行開門、操作馬桶座墊、燙衣服以及梳頭髮等複雜動作的潛力。
1X 執行長 Bernt Børnich 在接受《Bloomberg》採訪時強調,這代表著機器人也能像人類一樣,從網路上無窮無盡的影片中學習。而為了達成這一點,Neo 的外型必須極度擬人化,因為如果機器人的構造與人類差異過大,它就無法將人類在影片中的動作,轉換成自己的肢體語言。這種「具身智慧」(Embodied AI)的策略,繞過了過去收集機器人專屬訓練數據既昂貴又緩慢的瓶頸,讓網路影片變成機器人的現成教科書。
懂得「腦補」後果,讓機器人更安全
除了學習新技能,這套世界模型還具備關鍵的安全機制。Børnich 指出,模型會主動推理並視覺化可能出錯的情境,進而選擇最安全的路徑來執行任務。這意味著機器人不再是盲目執行指令,而是具備了基本的風險評估能力,這對於機器人進入家庭與人類共存至關重要。1X 官方部落格也提到,這種基於生成的策略,讓機器人能處理長序列的任務,而不僅僅是單一動作的反射。
隨著 Neo 預計在今年稍晚開始出貨,Børnich 認為機器人產業將迎來新的擴展定律:機器人的智慧將不再僅取決於人類收集多少數據,而是取決於有多少機器人在現實世界中運行並回饋經驗,形成自我強化的學習循環。也因此,產業重心將從過去困難、昂貴的人類資料蒐集工作,轉向更有效率的方向,也就是具備能力且安全的人形硬體製造與大規模部署。
不過,《TechCrunch》也提醒,說機器人能將任何提示指令轉化為新的動作可能過於誇張、不完全準確,例如期待讓 Neo 開車,它能自動學會路邊停車。
1X 發言人澄清,他們並不是在說目前的 Neo 機器人能夠僅靠錄下影片並給予提示,就立刻學會執行全新的任務。相反地,機器人會將與特定提示相關聯的影片資料回傳到其世界模型中,該模型再被回饋到整個機器人網路,讓所有機器人對物理世界有更好的理解,也累積更多實務經驗。
*本文開放合作夥伴轉載,資料來源:《TechCrunch》、《Interesting Engineering》、《Startup.ai》、《Bloomberg》、1X,首圖來源:1X