讓機器人自己判斷任務是否完成：Google 發表 Gemini Robotics-ER 1.6，解鎖儀表讀取能力

Google 推出了一種新的 AI 模型，目的在幫助機器人更好地理解物理世界並進行互動，進而解決機器人領域的核心挑戰之一：超越指令進行推理。

該模型名為 Gemini Robotics-ER 1.6，專注於「實體推理」（embodied reasoning），讓機器人能夠解釋視覺輸入、規劃任務，並確定任務何時完成。《Interesting Engineering》指出，這代表了機器人從單純服從命令，轉向能夠做出情境感知決策的系統。

三大核心升級：空間推理、多視角理解與任務完成判斷

在過去，Google 已發表機器人 AI 模型如 Gemini Robotics-ER 1.5 和 Gemini 3.0 Flash，這次推出的 Gemini Robotics-ER 1.6 則在早期版本的基礎上，改進了空間推理與多視角理解能力，讓機器人具備更高程度的自主性。

在空間推理能力方面，Google DeepMind 指出「指向」（pointing）是實體推理的基本能力。Gemini Robotics-ER 1.6 能更精準地辨識物體、進行計數，並判斷物體之間的關係；同時也能在推理過程中指認目標物，協助將複雜任務拆解為多個較小的步驟。這項能力在真實環境中特別重要，因為機器人必須與物體互動、在雜亂空間中移動，並在資訊不完整或持續變動的情況下做出決策。

其次是多視角理解能力。在現實場景中，機器人往往同時依賴多個攝影機（如手腕與俯視鏡頭）。新模型能整合不同視角資訊，即使畫面遮蔽或環境混亂，也能建立完整場景認知。

第三則是任務完成判斷（success detection）。Google DeepMind 認為，在機器人學中，知道任務何時完成與知道如何開始任務同等重要，而前者能力讓機器人能判斷任務是否正確完成，並決定下一步是重試還是繼續執行流程。這被視為實現自主化（autonomy）的關鍵能力，因為它讓系統不再依賴人類確認。

工業應用關鍵突破：機器人開始「讀懂儀表」

這次最具實用價值的新增能力，是「儀表讀取」（instrument reading）。透過與 Boston Dynamics 的合作，Gemini Robotics-ER 1.6 能讀取壓力錶、液位計與數位顯示器等工業設備資訊。這項能力結合視覺辨識與程式運算，讓機器人可以解析指針位置、刻度與單位，甚至在不同角度下仍能精準判讀。

官方數據顯示，儀表讀取準確率從早期模型的 23% 提升至最高 93%。Boston Dynamics Spot 機器狗已導入該能力，用於工廠巡檢與設備監控。

Boston Dynamics Spot 機器狗。圖片來源：Google DeepMind。

從 AI 模型到決策中樞：機器人大腦開始成形

不同於傳統 AI 模型多半專注單一任務，Gemini Robotics-ER 1.6 被設計為「高層決策中樞」，能透過原生呼叫各類工具來執行任務，例如使用 Google Search 搜尋資訊、調用視覺—語言—動作模型（VLA），或整合其他由使用者自訂的第三方功能。

這種架構，讓機器人可以在不同任務間切換，並動態整合資訊來源。換言之，機器人 AI 正從單點能力，轉向類似「代理式 AI（agentic AI）」的運作模式。隨著該模型已透過 Gemini API 與 Google AI Studio 開放給開發者，並開始在工業場景中實測，機器人 AI 的發展也正從研究階段，正式走向產業落地。

【推薦閱讀】
◆ 98% 自動化、每輛車 2 萬項數據回傳：解析 BMW 慕尼黑廠的 iFACTORY 數位升級邏輯
◆ 【不是從零開始】為何自動駕駛走過的漫長彎路，成了機器人產業珍貴的競爭資產？
◆ 目標 2030 財年實現機器自主運作：軟銀、本田等四大日本巨頭結盟瞄準實體 AI

＊本文開放合作夥伴轉載，資料來源：Google DeepMind、《Interesting Engineering》、《decrypt》，首圖來源：Google DeepMind

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

三大核心升級：空間推理、多視角理解與任務完成判斷

工業應用關鍵突破：機器人開始「讀懂儀表」

從 AI 模型到決策中樞：機器人大腦開始成形

更多理財相關文章

荷姆茲海峽開放前廿分鐘　神秘客砸245億元「放空油價」賺很大！美國要查了

台灣成東亞最強？　IMF預測：5年後日韓人均GDP「落後台灣逾1萬美元」

手上股票何時才該獲利了結？專家揭「有這個念頭」就該賣了：只靠感覺會後悔

店租狂飆＋電商夾擊！商圈倒閉潮出現失控警訊

英特爾衝刺晶圓代工拚AI新霸權台設備訂單大增5成

台股週報》美伊談判急煞車　大盤震盪恐加劇

請更新您的瀏覽器啟用Javascript

讓機器人自己判斷任務是否完成：Google 發表 Gemini Robotics-ER 1.6，解鎖儀表讀取能力

TechOrange 科技報橘

三大核心升級：空間推理、多視角理解與任務完成判斷

工業應用關鍵突破：機器人開始「讀懂儀表」

從 AI 模型到決策中樞：機器人大腦開始成形

更多理財相關文章

荷姆茲海峽開放前廿分鐘 神秘客砸245億元「放空油價」賺很大！美國要查了

台灣成東亞最強？ IMF預測：5年後日韓人均GDP「落後台灣逾1萬美元」

手上股票何時才該獲利了結？專家揭「有這個念頭」就該賣了：只靠感覺會後悔

店租狂飆＋電商夾擊！商圈倒閉潮出現失控警訊

英特爾衝刺晶圓代工拚AI新霸權 台設備訂單大增5成

台股週報》美伊談判急煞車 大盤震盪恐加劇

請更新您的瀏覽器

荷姆茲海峽開放前廿分鐘　神秘客砸245億元「放空油價」賺很大！美國要查了

台灣成東亞最強？　IMF預測：5年後日韓人均GDP「落後台灣逾1萬美元」

英特爾衝刺晶圓代工拚AI新霸權台設備訂單大增5成

台股週報》美伊談判急煞車　大盤震盪恐加劇