請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

NVIDIA 把機器人實驗交給 AI 代理:研究速度的瓶頸,原來不只是演算法

TechOrange 科技報橘

更新於 2天前 • 發布於 2天前 • 廖紹伶

過去兩年,AI 產業最重要的變化之一,是 AI 開始參與軟體開發本身:從 OpenAI 的 Codex、Anthropic 的 Claude Code,到近期快速崛起的各類 AI Coding Agent,這些工具不再只是回答問題,而是能閱讀程式碼、撰寫程式、執行測試、修正錯誤,甚至在有限範圍內完成整個開發循環。如今,這股「AI 研發 AI」的趨勢正開始從數位世界延伸到實體世界。

NVIDIA GEAR Lab 聯手卡內基美隆大學(Carnegie Mellon University)與加州大學柏克萊分校(UC Berkeley)最新發表的 ENPIRE(Embodied Neural Policy Improvement through Physical AutoResearch)框架,嘗試讓 AI 代理直接在真實機器人上完成研究流程。

根據 NVIDIA GEAR Lab 發表的研究成果,搭配 ENPIRE 的 AI Coding Agent 已能在裝設顯示卡、插針與束帶處理等高精度任務中達到最高 99% 成功率。更重要的是,這些成果並非來自人類工程師反覆調校,而是來自 AI 代理自行執行實驗、分析結果、改寫程式並持續優化。

機器人研究真正瓶頸:每次失敗都得有人把現場收乾淨

根據《Tech Times》報導,機器人研究長期面臨一個軟體工程沒有的瓶頸:每次實驗失敗後,都必須有人重新整理現場。

如果是軟體開發,測試失敗只要重新執行即可;但在機器人領域,物體可能掉落、位置偏移,甚至整個實驗場景被破壞。研究人員必須先確認結果、重設環境,再讓演算法進行下一輪嘗試。這使得機器人研究的迭代速度,往往受限於人類操作速度,而非演算法本身的進步速度。而 ENPIRE 的核心目標,就是將這個循環自動化。

從重設場景到改寫程式,ENPIRE 想讓 AI 接手整個研究流程

根據論文與《Tech Times》報導,ENPIRE 主要由四個模組組成:Environment、Rollout、Policy Improvement 與 Evolution。

其中,Environment 負責自動重設場景與驗證結果;Rollout 負責在真實硬體上執行實驗;Policy Improvement 讓 AI 代理根據執行結果修改控制策略;Evolution 則負責比較不同研究方向的成果,保留有效方法並淘汰失敗路線。

研究團隊表示,AI 代理不只會修改程式,還能閱讀研究論文、分析實驗紀錄、比較不同演算法表現,並決定下一步應該採用模仿學習(Imitation Learning)、強化學習(Reinforcement Learning)或其他訓練方法。換句話說,AI 代理不只是控制機器人,而是在執行一整套研究流程。

裝顯卡、插針、剪束帶,AI 代理把成功率推向 99%

為了驗證 ENPIRE 的能力,研究團隊將 OpenAI Codex、Anthropic Claude Code 與 Moonshot AI 的 Kimi Code 分別接入真實機器人系統進行測試。

根據《Decrypt》與《Ars Technica》報導,研究團隊讓這些 AI 代理控制由 8 組雙臂機器人組成的實驗平台,挑戰多項高精度操作任務,包括插入細小金屬針、綁束帶並剪斷,以及將顯示卡插入主機板 PCIe 插槽。

《Tom’s Hardware》指出,在顯示的示範影片中,機器人先抓取顯示卡,再將其精準對準主機板插槽並完成安裝。雖然過程中仍可看到細微調整,但已展現相當接近人工操作的精度。

此外,研究人員也發現規模化帶來明顯效果。根據《Ars Technica》與《Decrypt》報導,在 Push-T 測試中,單一代理需要接近 5 小時才能達到高成功率;當系統擴展至 8 組代理與機器人並行研究時,所需時間縮短至約 2 小時。這代表機器人研究也開始出現類似 AI 模型訓練中的規模效應。

從一台到八台機器人,研究速度加快但成本也同步上升

ENPIRE 的另一個重要發現是,多個 AI 代理與多台機器人協同工作,確實能顯著縮短研究時間。然而,《Tech Times》指出,隨著代理數量增加,新的問題也開始出現。代理需要閱讀彼此的實驗紀錄、整理研究成果並同步程式碼,導致部分時間花在協作而非實驗本身。

研究團隊因此提出兩項新指標:機器人利用率(Mean Robot Utilization)與 Token 利用率(Mean Token Utilization),用來衡量研究效率與算力消耗。結果顯示,雖然更多代理能更快找到有效解法,但 Token 消耗成長速度甚至超過時間節省幅度。換言之,研究速度提升的代價,是更高的推理成本。

研究也坦承,Physical AI 仍有三大限制待克服

儘管 ENPIRE 展現出令人印象深刻的成果,論文作者也坦承這項技術距離完全自主研究仍有不少限制。首先,每個任務仍需事先建立自動重設與驗證機制。

根據《Tech Times》與《Decrypt》報導,在正式開始自我研究之前,人類研究人員仍需先建立 Reset Routine 與 Reward Function。例如 GPU 插入任務中,系統必須先學會如何自行拔出顯示卡、恢復初始位置,才能開始下一輪實驗。

其次,模擬與真實世界之間的落差依然存在。論文指出,在 Push-T 任務中,三個 AI Coding Agent 都能在模擬器內成功完成訓練,但進入真實世界後,只有一個代理成功達成目標。研究團隊認為,摩擦力、感測器誤差與物體位置偏移等現象,仍是現有模擬環境難以完全重現的因素。

第三,機器人並非一直處於工作狀態。根據《Ars Technica》分析,許多時間其實消耗在 AI 代理閱讀日誌、撰寫程式、等待模型回應與除錯過程。即使研究循環已高度自動化,系統仍受限於大型語言模型本身的推理效率。

如果說 Claude Code、Codex 等工具代表 AI 開始參與軟體開發,那麼 ENPIRE 展現的,則是 AI 開始參與機器人研究本身。當然,現階段的 ENPIRE 仍離不開人類建立環境、設計評估機制與提供算力資源。但這項研究所揭示的方向已相當明確:未來加速 Physical AI 發展的,未必是更多工程師,也可能是更多負責研究的 AI 代理。

*本文開放合作夥伴轉載,資料來源:《Tech Times》《Decrypt》《Tom’s Hardware》《Ars Technica》,首圖來源:ENPIRE

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

該留房產或股票給後代?網一面倒這樣選

LINE TODAY
02

英特爾豪賭「10倍」成長目標!陳立武押注先進封裝、玻璃基板和人工鑽石重構晶片版圖

anue鉅亨網
03

賺爛了!八方雲集「1股配息曝光」 股民一看驚呆:果然水餃股

三立新聞網
04

AI讓房市變天 1/未來5年AI代理人暴增80倍!「不用薪水的員工」如何衝擊房市?

住展
05

台積電又要噴了?股海老牛大膽預言「這檔閉眼買」:歷史新天價快來了

鏡報
06

【台股端午變盤】上漲機率達六成 選股不選市籌碼越乾淨越好

太報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...