Google 機器人專用 AI 模型 Gemini Robotics,強化自主理解能力
Google 月中推出專為機器人設計 AI 模型,著眼提升機器人的互動、靈活與安全性。為強化機器人商用價值,現階段廠商於開發從擬人身體四肢,延伸至類人的心智思考,期能賦予機器人自主理解能力,完成新穎、複雜與多變的各式任務。
Gemini Robotics強化物理動作互動,Gemini Robotics-ER聚焦空間理解與安全
Google旗下主責AI業務的團隊DeepMind推出兩款以Gemini 2.0為基礎、專為機器人設計的AI模型,分別為強化物理動作互動的Gemini Robotics,以及提升空間理解能力的Gemini Robotics-ER。前者為以Gemini對現實世界認知,反應如何執行任務,如新物品對應方式、多樣化指令接收等。Gemini Robotics賦予機器人可處理過往訓練未見過任務的能力,此效益與人型機器人指標開發商Figure AI於2025年2月推出的VLA(Vision Language Action)模型Helix相仿,Gemini加值下,Google宣稱Gemini Robotics較同質VLA模型技術測試表現更突出。
▲ Gemini Robotics與Helix特性比較。(Source:拓墣產業研究院整理,2025.3)
若說Gemini Robotics是為了機器人的通用性、互動性與靈活性所建立,另一款Gemini Robotics-ER則是聚焦於機器人在理解環境與安全防護兩方面強化。以理解環境而言,Gemini Robotics-ER整合3D偵測、空間推理與編碼能力,進而執行控制機器人所需的所有步驟,包括源頭感測、狀態推估、空間理解、規劃運作等,亦可藉由少量數據的情境學習來提供解決方案。在安全防護方面,Google認為此為機器人領域最基本且需長期關注的議題,諸如避免碰撞、限制接觸力的大小、確保機器人移動時的動態穩定性等皆須考量,因此Gemini Robotics-ER可藉由給予其安全限制,進而在既定環境下判斷潛在操作是否能夠安全執行。
Apptronik下代產品有望以Google模型強化,自主理解能力成機器人商用關鍵
據悉Google的相關模型將用於強化機器人開發商Apptronik之產品,該廠商過往已與多家企業展開合作,單就2024年來看,便與GXO物流廠商合作測試倉儲應用、與Mercedes-Benz測試機器人於汽車零組件檢查、交付、運送之應用。亦宣布與NVIDIA合作,整合最新Project GR00T通用模型,強化機器人學習能力與靈活度。Apptronik與Google合作亦不陌生,不僅在2025年初獲得其戰略投資,更在2024年12月便宣布與Google機器人團隊策略合作,透過DeepMind的AI技術提升自家產品Apollo空間理解能力,進而推動能在醫療場域、居家環境等無特定設計的複雜環境,協助人類的人型機器人。
從Figure AI的Helix介紹影片示範兩台居家機器人可互助合作整理日常雜務,到Google的Gemini Robotics應用短片展示未接觸過籃球運動的機器人可執行灌籃動作,現行機器人LLM的發展一如AI一般,不再停留於一個指令一個動作或回覆的階段,而是往推理下一個最適回應的方向來前進。一定程度能讓機器人更快用於商業活動,以及走入要素眾多的家用環境,畢竟影片訓練有限,意外發生無常,機器人如何透過跨文字、圖像、音訊和視訊的多模式推理,發展自主理解能力並解決複雜問題才是大舉部署之關鍵,是以科技大廠人型機器人發展重心,也逐步從擬人的身體四肢,延伸至類人的心智思考。
(首圖來源:Google)