會玩 3D 遊戲的 AI 代理來了!Google DeepMind 發表 SIMA 2,為通用 AI 機器人鋪路
Google DeepMind 再次把「AI 代理」往前推了一大步,推出了一款名為「SIMA 2」的新型 電玩遊戲 AI 代理,能在 3D 虛擬世界中自主導航、理解任務、推理決策、甚至透過多輪互動自我改進。DeepMind 的研究團隊表示,這是邁向打造通用型 AI 代理(general-purpose agents)的重要一步,這類代理未來將成為真實世界機器人的核心運算基礎。
以下整理 SIMA 2 三大亮點:
亮點一:從「能執行指令」到「能理解環境並推理」
SIMA 的全名是 Scalable Instructable Multiworld Agent,2024 年推出的第一代已能在多款 3D 遊戲中依照指令完成任務,DeepMind 表示,第一代 SIMA 是靠「看螢幕」並使用虛擬鍵盤與滑鼠,在各種虛擬世界中學習操控遊戲角色、完成任務。但 SIMA 2 更進一步——因為有 Gemini 的加持,它不只是模仿操作,而是具備自主思考能力,能自己推理「該做什麼、怎麼做」。
根據研究團隊表示,在 Gemini 的支援下,SIMA 2 能解讀高階目標、口頭講述自己的行動計畫、與其他代理或玩家協作。他們聲稱,SIMA 2 在不同虛擬環境中的通用能力更強,並能完成更長、更複雜如多模態的任務,包括依據邏輯提示作業、理解螢幕上的手繪草圖,甚至連表情符號(emoji)提示也能處理。
亮點二:能在「沒看過的世界」中行動
真正讓 SIMA 2 脫離傳統「遊戲代理」框架的,是它能在完全沒見過的世界中行動。研究團隊把 SIMA 2 移入另一款世界模型 Genie 3 所生成的環境中,這些場景可能來自一張照片、一句提示語,或一段玩家建立的內容,完全沒有既定規則或已知訓練資料。SIMA 2 卻仍能判斷自身所在位置、辨識場景中的物件,並推理出下一步應該採取的行動。
這種能力代表代理不再依賴固定的遊戲框架,而是能以較抽象的方式理解世界結構,這正是通用 AI 代理、家用機器人和工廠自主機器人所需要的核心能力。
亮點三:會自己練功的 AI
SIMA 2 之所以能做到上述任務,是因為其另一個重大突破:具備自我強化的能力。當 SIMA 2 完成任務後,Gemini 會產生新的挑戰與提示,讓 SIMA 2 自行在環境中嘗試、犯錯、修正,再將這些經驗回饋到下一輪訓練中。這形成一個類似玩家練功的自我進化循環,使模型能在無限擴張的虛擬場景中累積知識,而不再完全依賴人類示範。
Google DeepMind 終極目標:可部署在機器人的 AI 代理
《SiliconANGLE》報導,DeepMind 資深研究工程師 Frederic Besse 表示,SIMA 2 的最終目標,是打造一代可以真正部署到實體機器人的新型 AI 代理,讓機器人能在真實世界運作。他指出,SIMA 2 在虛擬環境學習到的技能,例如導航、使用工具、與人類協作,可以清送應用到工廠或倉庫等實際情境。
Besse 解釋:「如果我們思考一個系統要在真實世界執行任務,例如機器人,基本上需要兩大能力。」第一,是高層次的理解與推理能力:能看懂現實世界的狀況、理解要完成什麼、並推理出行動計畫。第二,是低層次的控制能力:像是操作機器人的關節、輪子等具體的物理動作。他強調,真正能在現實世界工作的 AI 系統,必須同時具備這兩個層面的能力。
不過,《TechCrunch》報導,DeepMind 研究團隊拒絕透露在實體機器人系統中實施 SIMA 2 的具體時間表。Google DeepMind 也坦言現階段距離真正的通用代理還有距離,例如在非常長程的任務中穩定度仍需加強,有限的記憶窗雖能降低延遲,但也限制了任務背景的完整度。
針對 SIMA 2 的能力,有些研究員持懷疑態度。加拿大亞伯達大學的 AI 研究員 Matthew Guzdial 告訴《MIT Technology Review》,他對 SIMA 2 能玩許多不同的電玩遊戲並不感到意外,因為多數遊戲的鍵盤與滑鼠操作其實都非常相似:學會一套操作,就等於學會大部分操作。Guzdial 也質疑 SIMA 2 所學到的能力有多少能真正轉移到機器人身上。
「我們現在做的事情,其實只是剛開始觸及可能性的一小部分而已,」Google DeepMind 向外媒表示。
*本文開放合作夥伴轉載,資料來源:《TechCrunch》、《MIT Technology Review》、《SiliconANGLE》、Google DeepMind,首圖來源:Google DeepMind