請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

不再只是爬蟲!Browser Use 讓 AI「讀懂」網站,四天開發成開源焦點

科技新報

更新於 2025年04月02日14:32 • 發布於 2025年04月06日10:30

近期熱議的人工智慧代理平台 Manus,憑藉自動操作網站、執行任務的能力,迅速在開發者社群掀起熱烈討論。然 Manus 爆紅同時,也意外捧紅背後開源工具 Browser Use,短時間內成為開發圈最受矚目技術。

簡單來說,Browser Use可將網站前端結構轉換為AI能理解的文字格式,讓語言模型不再只能讀取資料,而是能「讀懂」網站,進一步像人類一樣完成點擊、輸入、瀏覽等操作。

Browser Use共同創辦人Gregor Žunič表示,相關介紹文章在社群平台X獲得超過240萬次瀏覽,使Browser Use的日下載量從5,000次飆升至28,000次,並迅速登上GitHub熱門排行。

令人意外的是,這套技術的雛形,其實只是一項由兩位碩士學生在週末完成的實驗,僅花了四天就打造出第一版原型。AI自動操作網站的概念並不新穎,許多團隊早有嘗試,但Browser Use究竟做對了什麼,能率先突破限制,並贏得開源社群與市場青睞?

Browser Use讓AI真正「讀懂」網站

近期AI代理(AI Agent)成為人工智慧應用備受關注的方向,許多新創團隊紛紛投入,嘗試讓AI自主完成各種網頁任務。然目前多數技術解法仍仰賴「視覺導向」的方式,如截圖擷取網站畫面、分析畫面元素的座標位置,模擬人類的操作流程。

這類方法雖然相對容易上手,但穩定性往往不高。一旦網站介面略有調整,例如按鈕位置變動、功能重新排列,原本設定好的自動化流程就可能失效,導致任務中斷,也增加維護與修正的技術成本。同時,網站普遍具備反機器人機制,像是封鎖異常IP、要求輸入驗證碼、或強制重新登入等,也讓AI的執行過程充滿不確定性。

Browser Use採完全不同路徑。不依賴圖像判斷,而是讓AI真正「讀懂」網站,透過網頁互動元素(如按鈕、輸入欄位、下拉選單等)轉譯為語意化結構化文字格式,使大型語言模型(LLMs)能像理解自然語言一樣理解網站邏輯,進而自主做出操作決策。這樣的方式避開了視覺辨識常見的座標誤差與版面變動問題,大幅提升操作的準確性與穩定性。

▲ Browser Use透過網頁互動元素例如按鈕、輸入欄位、下拉選單等轉譯為語意化的結構化文字格式,使大型語言模型(LLMs)能像理解自然語言一樣理解網站邏輯,進而自動做操作決策。

使用者只需下達任務指令,例如「登入某網站」、「下載某報表」、「填寫特定表單」,Browser Use便能協助AI自動解析網站架構,依序完成各項操作。不僅支援多分頁操作與滑鼠鍵盤模擬,還能存取電腦檔案,讓AI能順利執行更複雜且具連貫性的網頁任務。

▲ Browser use示範用Google Docs寫信給爸爸,並將文件存成PDF的流程。(Source:Browser use

有趣的是,這項AI技術的原型僅花了四天就完成。是什麼原因,讓一個構想能夠引發開源社群的關注與討論?

午餐時的點子,四天做出原型並引發關注

這個點子來自瑞士蘇黎世聯邦理工學院(ETH Zurich)兩位資料科學碩士生Magnus Müller與Gregor Žunič。

Magnus Müller擅長開發網頁爬蟲與自動化工具,Gregor Žunič則專注於將資料科學應用於實際任務與流程最佳化。兩人在2024年於校園創新加速器「Student Project House」相識,隨即展開合作,著手開發一套能讓大型語言模型控制瀏覽器、直接操作網頁的開源架構。

Gregor Žunič回憶,這個構想最初只是幾次午餐閒聊討論的點子,「我們想做個小東西放上Hacker News,看看會發生什麼事」,沒想到短短四天內便完成了最小可行產品(MVP),並同步上傳至GitHub與Hacker News。

產品曝光後便登上熱門榜首,迅速引發開發者社群的熱烈關注,也吸引大量使用者參與試用與貢獻開發。目前Browser Use在GitHub累積超過五萬顆星,有超過15,000位開發者貢獻者,已成為開源AI自動化領域受矚目專案之一。

▲ Browser Use創辦人Magnus Müller(左)與Gregor Žunič。(Source:Gregor Žunič

起初,Browser Use僅提供開源版本,供開發者自行部署與客製化使用。但就在OpenAI推出自家瀏覽器代理服務「Operator」後,Browser Use社群的需求瞬間爆炸──許多開發者紛紛詢問是否能直接提供一套免安裝、開箱即用的雲端服務。團隊因應需求,迅速推出由官方營運的線上版本,訂價為每月30美元(約新台幣945元)。

這項線上服務整合了IP切換、驗證碼處理、自動記住登入狀態等功能,並支援同時執行多個任務,使用者無需處理繁瑣的後端設定,就能直接在平台部署AI代理流程。這項產品調整,讓Browser Use不再只是開源工具,也開始具備作為AI代理平台的商業化可能。

看準代理型AI成長潛力,獲1,700萬美元資金挹注

根據市場研究機構Research and Markets的預測,至2029年,AI代理市場的規模將達到420億美元。顧問公司Deloitte則指出,到2027年,超過一半的企業將導入AI代理技術,顯示逐漸成為企業數位轉型的關鍵技術。

在這波產業趨勢,Browser Use也成功獲得資本市場的青睞。由Felicis合夥人Astasia Myers領投、Paul Graham、Nexus Venture Partners、A Capital等創投機構參與的種子輪募資中,Browser Use募得1,700萬美元資金(約新台幣5,100萬元)。

Astasia Myers表示,團隊「開源優先」的策略與AI代理應用定位,是促成投資的主因之一;她同時指出,創辦團隊的執行能力與專業度,亦是吸引投資人關注的重要因素。

團隊正積極開發語音操作、任務重跑、自動排程等功能,並計畫推出API介面,協助開發者更容易將AI代理整合至自家產品。Gregor Žunič表示:「告訴電腦你要做什麼,它就會幫你完成。」這句話,也正是他們想讓AI真正做到的事。

(本文由 創業小聚 授權轉載;首圖來源:Browser use

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

別急著下車!7檔最多人放棄的高股息ETF「漲幅超驚人」

EBC 東森新聞
02

老闆挪員工薪水、貨款全買ETF 隔天慘遇股災「4連擊」結局超慘

EBC 東森新聞
03

0050規模等於全年房市交易量!謝金河:錢都流向股市了

自由電子報
04

曾號稱亞洲最大旗艦店 H&M證實年底收攤「原因曝光」市場人士揭背後關鍵

鏡週刊
05

8張信用卡將停發!這些換卡一次看

NOWNEWS今日新聞
06

回顧台灣大宗物資採購史 中聯油脂的前世今生

自由電子報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...