讓機器人自己判斷任務是否完成:Google 發表 Gemini Robotics-ER 1.6,解鎖儀表讀取能力
Google 推出了一種新的 AI 模型,目的在幫助機器人更好地理解物理世界並進行互動,進而解決機器人領域的核心挑戰之一:超越指令進行推理。
該模型名為 Gemini Robotics-ER 1.6,專注於「實體推理」(embodied reasoning),讓機器人能夠解釋視覺輸入、規劃任務,並確定任務何時完成。《Interesting Engineering》指出,這代表了機器人從單純服從命令,轉向能夠做出情境感知決策的系統。
三大核心升級:空間推理、多視角理解與任務完成判斷
在過去,Google 已發表機器人 AI 模型如 Gemini Robotics-ER 1.5 和 Gemini 3.0 Flash,這次推出的 Gemini Robotics-ER 1.6 則在早期版本的基礎上,改進了空間推理與多視角理解能力,讓機器人具備更高程度的自主性。
在空間推理能力方面,Google DeepMind 指出「指向」(pointing)是實體推理的基本能力。Gemini Robotics-ER 1.6 能更精準地辨識物體、進行計數,並判斷物體之間的關係;同時也能在推理過程中指認目標物,協助將複雜任務拆解為多個較小的步驟。這項能力在真實環境中特別重要,因為機器人必須與物體互動、在雜亂空間中移動,並在資訊不完整或持續變動的情況下做出決策。
其次是多視角理解能力。在現實場景中,機器人往往同時依賴多個攝影機(如手腕與俯視鏡頭)。新模型能整合不同視角資訊,即使畫面遮蔽或環境混亂,也能建立完整場景認知。
第三則是任務完成判斷(success detection)。Google DeepMind 認為,在機器人學中,知道任務何時完成與知道如何開始任務同等重要,而前者能力讓機器人能判斷任務是否正確完成,並決定下一步是重試還是繼續執行流程。這被視為實現自主化(autonomy)的關鍵能力,因為它讓系統不再依賴人類確認。
工業應用關鍵突破:機器人開始「讀懂儀表」
這次最具實用價值的新增能力,是「儀表讀取」(instrument reading)。透過與 Boston Dynamics 的合作,Gemini Robotics-ER 1.6 能讀取壓力錶、液位計與數位顯示器等工業設備資訊。這項能力結合視覺辨識與程式運算,讓機器人可以解析指針位置、刻度與單位,甚至在不同角度下仍能精準判讀。
官方數據顯示,儀表讀取準確率從早期模型的 23% 提升至最高 93%。Boston Dynamics Spot 機器狗已導入該能力,用於工廠巡檢與設備監控。
從 AI 模型到決策中樞:機器人大腦開始成形
不同於傳統 AI 模型多半專注單一任務,Gemini Robotics-ER 1.6 被設計為「高層決策中樞」,能透過原生呼叫各類工具來執行任務,例如使用 Google Search 搜尋資訊、調用視覺—語言—動作模型(VLA),或整合其他由使用者自訂的第三方功能。
這種架構,讓機器人可以在不同任務間切換,並動態整合資訊來源。換言之,機器人 AI 正從單點能力,轉向類似「代理式 AI(agentic AI)」的運作模式。隨著該模型已透過 Gemini API 與 Google AI Studio 開放給開發者,並開始在工業場景中實測,機器人 AI 的發展也正從研究階段,正式走向產業落地。
【推薦閱讀】
◆ 98% 自動化、每輛車 2 萬項數據回傳:解析 BMW 慕尼黑廠的 iFACTORY 數位升級邏輯
*本文開放合作夥伴轉載,資料來源:Google DeepMind、《Interesting Engineering》、《decrypt》,首圖來源:Google DeepMind