會玩 3D 遊戲的 AI 代理來了！Google DeepMind 發表 SIMA 2，為通用 AI 機器人鋪路

Google DeepMind 再次把「AI 代理」往前推了一大步，推出了一款名為「SIMA 2」的新型電玩遊戲 AI 代理，能在 3D 虛擬世界中自主導航、理解任務、推理決策、甚至透過多輪互動自我改進。DeepMind 的研究團隊表示，這是邁向打造通用型 AI 代理（general-purpose agents）的重要一步，這類代理未來將成為真實世界機器人的核心運算基礎。

以下整理 SIMA 2 三大亮點：

亮點一：從「能執行指令」到「能理解環境並推理」

SIMA 的全名是 Scalable Instructable Multiworld Agent，2024 年推出的第一代已能在多款 3D 遊戲中依照指令完成任務，DeepMind 表示，第一代 SIMA 是靠「看螢幕」並使用虛擬鍵盤與滑鼠，在各種虛擬世界中學習操控遊戲角色、完成任務。但 SIMA 2 更進一步——因為有 Gemini 的加持，它不只是模仿操作，而是具備自主思考能力，能自己推理「該做什麼、怎麼做」。

根據研究團隊表示，在 Gemini 的支援下，SIMA 2 能解讀高階目標、口頭講述自己的行動計畫、與其他代理或玩家協作。他們聲稱，SIMA 2 在不同虛擬環境中的通用能力更強，並能完成更長、更複雜如多模態的任務，包括依據邏輯提示作業、理解螢幕上的手繪草圖，甚至連表情符號（emoji）提示也能處理。

亮點二：能在「沒看過的世界」中行動

真正讓 SIMA 2 脫離傳統「遊戲代理」框架的，是它能在完全沒見過的世界中行動。研究團隊把 SIMA 2 移入另一款世界模型 Genie 3 所生成的環境中，這些場景可能來自一張照片、一句提示語，或一段玩家建立的內容，完全沒有既定規則或已知訓練資料。SIMA 2 卻仍能判斷自身所在位置、辨識場景中的物件，並推理出下一步應該採取的行動。

這種能力代表代理不再依賴固定的遊戲框架，而是能以較抽象的方式理解世界結構，這正是通用 AI 代理、家用機器人和工廠自主機器人所需要的核心能力。

亮點三：會自己練功的 AI

SIMA 2 之所以能做到上述任務，是因為其另一個重大突破：具備自我強化的能力。當 SIMA 2 完成任務後，Gemini 會產生新的挑戰與提示，讓 SIMA 2 自行在環境中嘗試、犯錯、修正，再將這些經驗回饋到下一輪訓練中。這形成一個類似玩家練功的自我進化循環，使模型能在無限擴張的虛擬場景中累積知識，而不再完全依賴人類示範。

Google DeepMind 終極目標：可部署在機器人的 AI 代理

《SiliconANGLE》報導，DeepMind 資深研究工程師 Frederic Besse 表示，SIMA 2 的最終目標，是打造一代可以真正部署到實體機器人的新型 AI 代理，讓機器人能在真實世界運作。他指出，SIMA 2 在虛擬環境學習到的技能，例如導航、使用工具、與人類協作，可以清送應用到工廠或倉庫等實際情境。

Besse 解釋：「如果我們思考一個系統要在真實世界執行任務，例如機器人，基本上需要兩大能力。」第一，是高層次的理解與推理能力：能看懂現實世界的狀況、理解要完成什麼、並推理出行動計畫。第二，是低層次的控制能力：像是操作機器人的關節、輪子等具體的物理動作。他強調，真正能在現實世界工作的 AI 系統，必須同時具備這兩個層面的能力。

不過，《TechCrunch》報導，DeepMind 研究團隊拒絕透露在實體機器人系統中實施 SIMA 2 的具體時間表。Google DeepMind 也坦言現階段距離真正的通用代理還有距離，例如在非常長程的任務中穩定度仍需加強，有限的記憶窗雖能降低延遲，但也限制了任務背景的完整度。

針對 SIMA 2 的能力，有些研究員持懷疑態度。加拿大亞伯達大學的 AI 研究員 Matthew Guzdial 告訴《MIT Technology Review》，他對 SIMA 2 能玩許多不同的電玩遊戲並不感到意外，因為多數遊戲的鍵盤與滑鼠操作其實都非常相似：學會一套操作，就等於學會大部分操作。Guzdial 也質疑 SIMA 2 所學到的能力有多少能真正轉移到機器人身上。

「我們現在做的事情，其實只是剛開始觸及可能性的一小部分而已，」Google DeepMind 向外媒表示。

立即報名 11/25「新 AI 浪潮：代理 AI（Agentic AI）與產業數位轉型新契機」論壇，NVIDIA 將攜手 NVIDIA Inception Partner，深度剖析透過 AI 與 AI Agent 技術應用，賦能知識管理、商業分析、內容創造等關鍵應用

＊本文開放合作夥伴轉載，資料來源：《TechCrunch》、《MIT Technology Review》、《SiliconANGLE》、Google DeepMind，首圖來源：Google DeepMind

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

亮點一：從「能執行指令」到「能理解環境並推理」

亮點二：能在「沒看過的世界」中行動

亮點三：會自己練功的 AI

Google DeepMind 終極目標：可部署在機器人的 AI 代理

更多理財相關文章

荷姆茲海峽開放前廿分鐘　神秘客砸245億元「放空油價」賺很大！美國要查了

台灣成東亞最強？　IMF預測：5年後日韓人均GDP「落後台灣逾1萬美元」

史上最強！台積電「1奈米以下」啟動時間曝光　這大戶會搶先買

國銀外幣存款登峰！兆元俱樂部大洗牌臺銀飆上亞軍

手上股票何時才該獲利了結？專家揭「有這個念頭」就該賣了：只靠感覺會後悔

店租狂飆＋電商夾擊！商圈倒閉潮出現失控警訊

請更新您的瀏覽器啟用Javascript

會玩 3D 遊戲的 AI 代理來了！Google DeepMind 發表 SIMA 2，為通用 AI 機器人鋪路

TechOrange 科技報橘

亮點一：從「能執行指令」到「能理解環境並推理」

亮點二：能在「沒看過的世界」中行動

亮點三：會自己練功的 AI

Google DeepMind 終極目標：可部署在機器人的 AI 代理

更多理財相關文章

荷姆茲海峽開放前廿分鐘 神秘客砸245億元「放空油價」賺很大！美國要查了

台灣成東亞最強？ IMF預測：5年後日韓人均GDP「落後台灣逾1萬美元」

史上最強！台積電「1奈米以下」啟動時間曝光 這大戶會搶先買

國銀外幣存款登峰！兆元俱樂部大洗牌 臺銀飆上亞軍

手上股票何時才該獲利了結？專家揭「有這個念頭」就該賣了：只靠感覺會後悔

店租狂飆＋電商夾擊！商圈倒閉潮出現失控警訊

請更新您的瀏覽器

荷姆茲海峽開放前廿分鐘　神秘客砸245億元「放空油價」賺很大！美國要查了

台灣成東亞最強？　IMF預測：5年後日韓人均GDP「落後台灣逾1萬美元」

史上最強！台積電「1奈米以下」啟動時間曝光　這大戶會搶先買

國銀外幣存款登峰！兆元俱樂部大洗牌臺銀飆上亞軍