請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Google 新模型釋出,AI 模仿人類使用瀏覽器、填寫表單

科技新報

更新於 2025年10月09日11:40 • 發布於 2025年10月09日11:34

Google 推出 Gemini 2.5 Computer Use 模型,以 Gemini 2.5 Pro 的視覺理解和推理能力為基礎所開發的專用模型,可支援代理程式在原本為人類設計的網路介面上進行操作,目前透過 Gemini API 提供預覽版本。

儘管 AI 模型可以透過結構化 API 與軟體互動、完成指令,但許多任務仍需要與圖形使用者介面互動,例如填寫表單並送出。要完成這樣的任務,代理程式必須像人類一樣瀏覽網站或應用程式,過程中有點擊、輸入等動作。對於打造強大且通用的代理程式而言,能夠做到填寫表單、操作下拉選單與篩選器等互動元素,並在需要身分登入的情況下進行操作,是關鍵的一步。

於是 Gemini 2.5 Computer Use 模型為此而生,它的核心能力透過 Gemini API 新增的「computer_use」工具公開,並在一個迴圈內運行,該工具的輸入在於使用者請求、環境的截圖以及近期操作的歷史紀錄。這款模型可用於網路介面測試,或在無 API 或其他直接連接的情況下操作僅供人類使用的網路介面。

▲ Gemini 2.5 Computer Use 模型運作流程。

▲ Google 示範影片展示「computer_use」工具的運作,並強調影片播放是快轉 3 倍。

Gemini 2.5 Computer Use 模型推出時間點恰好碰上OpenAI 開發者大會,而OpenAI 已打造一套自主代理系統 ChatGPT Agent,另一競爭對手Anthropic 去年已釋出具備 computer use 功能的 Claude 模型版本,看來都走上開發通用代理程式的必經之路。

但與 OpenAI、Anthropic 做法不同的是,Google 的 Gemini 2.5 Computer Use 模型只能存取瀏覽器,而非整個電腦使用環境。Google 指出這款模型目前尚未最佳化至桌面作業系統層級的控制,僅支援 13 種瀏覽器操作,包括開啟瀏覽器、輸入文字等。Google 還強調,這款模型在多項 Web 和行動控制的基準測試展現強大性能。

(圖片來源:Google Blog

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

不只台積電!外媒點名2檔個股:買了10年後會感謝自己

民視新聞網
02

台股大怒神1/戰爭盤別看技術面 股市女王:是否落底關鍵在這件事

鏡週刊
03

漂流木變小提琴2/晚上7點後只剩便利店最亮!竹科工程師返鄉想振興小鎮 下場是天天茫到不敢再出門

鏡週刊
04

不買10年後會後悔!外媒點名「現買2檔股票」 台積電入列

CTWANT
05

AI泡沫化要來了?「邊緣運算」成市場大趨勢 簡立峰曝台灣未來驚人可能

風傳媒
06

台灣未列美方專利藥品優惠待遇國 行政院澄清「打臉說」

自由電子報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...