科技

研究指 AI 助理仍會發生失誤　針對 Claude Computer Use 模式進行測試

Unwire.hk

發布於 7小時前

Anthropic 於去年 10 月推出了 Claude「Computer Use」功能，可以讓大型語言模型直接控制電腦，進行各種操作。新加坡國立大學 Show Lab 對此進行深入測試，研究目前 AI 代理的能力與限制。

Claude 的 Computer Use 功能屬於 GUI（圖形使用者介面）代理，也就是透過分析真人用戶看到的介面，針對指令進行互動，讓用戶無需 API 即可自動化各種操作。研究團隊測試了 Claude 在網頁搜尋、工作流程、辦公生產力和遊戲等方面的表現，並從規劃、執行和評估三個維度進行評估。

廣告（請繼續閱讀本文）

研究結果顯示，Claude 在執行複雜任務方面表現出色。它能夠合理規劃多步驟任務、協調不同應用程式之間的操作，並持續評估進度。然而，模型也經常出現一些真人不會犯的基本錯誤，例如未能滾動網頁找到按鈕，或是在簡單的文字編輯時失誤，而且模型往往無法正確評估自己的錯誤。

研究認為對企業而言，目前這項技術尚未成熟到可大規模部署的程度。模型行為的不穩定性可能帶來不可預測的結果，且透過 GUI 介面執行工作的效率遠低於 API。研究人員建議，這類工具更適合用於產品團隊的創意探索和方案迭代，而非直接用於生產環境。

來源：VentureBeat

廣告（請繼續閱讀本文）

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物即上 unwire store
https://store.unwire.hk/

更多科技相關文章

霍金預言好快成真？大學生問 AI人口老化問題 Google Gemini 竟回答:「人類去死」

Meta 掃蕩「殺豬盤」詐騙行動　封鎖多達 200 萬違規帳戶

Neuralink 加拿大臨牀試驗獲批　現正進行受試者招募

涉嫌破壞波羅的海海底電纜丹麥海軍成功拘留中國貨船

【評測】Zotac Gaming Zone　遲來的手提遊戲機新星

「SEGA 黑色星期五優惠」火熱舉辦中！「暗喻幻想：ReFantazio」、「人中之龍桐生一馬完美版組合」特價登場！

Google AI Gemini 回應用家：請去死網民：AI 開始相信自己，多過相信人類

香港 Apple Music 全線加價　幅度最高達 15%

【有片睇】馬斯克將成《Diablo 4》遊戲全球第一破記錄後笑言：「遊戲中可學到很多人生教訓」

中國 AI DeepSeek 號稱超越 OpenAI o1 具備推理能力、能輸出「AI 思考過程」

「星巴克」推出日本全家便利商店限定商品「香濃白巧克力with香草布丁」！布丁到底是怎麼回事！？

Steam今冬即將上綫「Virtua Fighter5 R.E.V.O.」！支持回滾網絡代碼！

華為包攬「天界、仙界、君界」商標產品涵蓋電動車、汽車儀表板、攝影無人機

日本知名聲優售賣自己的 AI 聲音可產生歌唱聲音、流利說話語音

Android新增還原憑證功能　換機裝App免重新登入

「邦和港運動＆文化」內部預定開設電競房「邦和港電競」！

「NIJISANJI FASHONABLE AUTUMN」周邊上綫！秋季風格的七種周邊介紹

Steam 計劃制定「季票」新例　要求清楚列明裏面包含的 DLC 內容

查看更多 Unwire.hk 的文章

Meta 掃蕩「殺豬盤」詐騙行動　封鎖多達 200 萬違規帳戶

Neuralink 加拿大臨牀試驗獲批　現正進行受試者招募

涉嫌破壞波羅的海海底電纜丹麥海軍成功拘留中國貨船

【評測】Zotac Gaming Zone　遲來的手提遊戲機新星

【有片睇】馬斯克將成《Diablo 4》遊戲全球第一破記錄後笑言：「遊戲中可學到很多人生教訓」