科技

研究指 AI 助理仍會發生失誤 針對 Claude Computer Use 模式進行測試

Unwire.hk
發布於 7小時前

Anthropic 於去年 10 月推出了 Claude「Computer Use」功能,可以讓大型語言模型直接控制電腦,進行各種操作。新加坡國立大學 Show Lab 對此進行深入測試,研究目前 AI 代理的能力與限制。

Claude 的 Computer Use 功能屬於 GUI(圖形使用者介面)代理,也就是透過分析真人用戶看到的介面,針對指令進行互動,讓用戶無需 API 即可自動化各種操作。研究團隊測試了 Claude 在網頁搜尋、工作流程、辦公生產力和遊戲等方面的表現,並從規劃、執行和評估三個維度進行評估。

廣告(請繼續閱讀本文)

研究結果顯示,Claude 在執行複雜任務方面表現出色。它能夠合理規劃多步驟任務、協調不同應用程式之間的操作,並持續評估進度。然而,模型也經常出現一些真人不會犯的基本錯誤,例如未能滾動網頁找到按鈕,或是在簡單的文字編輯時失誤,而且模型往往無法正確評估自己的錯誤。

研究認為對企業而言,目前這項技術尚未成熟到可大規模部署的程度。模型行為的不穩定性可能帶來不可預測的結果,且透過 GUI 介面執行工作的效率遠低於 API。研究人員建議,這類工具更適合用於產品團隊的創意探索和方案迭代,而非直接用於生產環境。

來源:VentureBeat

廣告(請繼續閱讀本文)

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

更多 科技 相關文章

霍金預言好快成真? 大學生問 AI人口老化問題 Google Gemini 竟回答:「人類去死」
GadgetGang HK
Meta 掃蕩「殺豬盤」詐騙行動 封鎖多達 200 萬違規帳戶
Unwire.hk
Neuralink 加拿大臨牀試驗獲批 現正進行受試者招募
Unwire.hk
涉嫌破壞波羅的海海底電纜 丹麥海軍成功拘留中國貨船
Unwire.hk
【評測】Zotac Gaming Zone 遲來的手提遊戲機新星
Unwire.hk
「SEGA 黑色星期五優惠」火熱舉辦中!「暗喻幻想:ReFantazio」、「人中之龍 桐生一馬完美版組合」特價登場!
Saiga NAK
Google AI Gemini 回應用家:請去死 網民:AI 開始相信自己,多過相信人類
Unwire.hk
香港 Apple Music 全線加價 幅度最高達 15%
流動日報
【有片睇】馬斯克將成《Diablo 4》遊戲全球第一 破記錄後笑言:「遊戲中可學到很多人生教訓」
Unwire.hk
中國 AI DeepSeek 號稱超越 OpenAI o1 具備推理能力、能輸出「AI 思考過程」
Unwire.hk
「星巴克」推出日本全家便利商店限定商品「香濃白巧克力with香草布丁」!布丁到底是怎麼回事!?
Saiga NAK
Steam今冬即將上綫「Virtua Fighter5 R.E.V.O.」!支持回滾網絡代碼!
Saiga NAK
華為包攬「天界、仙界、君界」商標 產品涵蓋電動車、汽車儀表板、攝影無人機
Unwire.hk
日本知名聲優售賣自己的 AI 聲音 可產生歌唱聲音、流利說話語音
Unwire.hk
Android新增還原憑證功能 換機裝App免重新登入
am730
「邦和港運動&文化」內部預定開設電競房「邦和港電競」!
Saiga NAK
「NIJISANJI FASHONABLE AUTUMN」周邊上綫!秋季風格的七種周邊介紹
Saiga NAK
Steam 計劃制定「季票」新例 要求清楚列明裏面包含的 DLC 內容
Unwire.hk