7B 小模型超越 GPT-4o?微軟 Fara-7B 本地運行、能操控滑鼠鍵盤,破解企業數據安全痛點
微軟近日發布一個參數僅有 70 億的小型語言模型(SLM) Fara-7B ,也是微軟第一個專為「電腦使用智慧體」(Computer-Use Agent, CUA)設計的代理 SLM。
有別於傳統僅生成文字回應的聊天模型,如 Fara-7B 這一類的電腦使用智慧體模型,可以在使用者裝置上直接操作滑鼠、鍵盤與視覺介面,進一步執行複雜任務。這種在裝置端運行的模式,由於使用者資料將被保留在本地裝置上,因此可以顯著降低延遲並提升隱私保護。
Fara-7B 採取「視覺優先」模式,創造「像素主權」
為了在本地端精準執行各類複雜操作,Fara-7B 採用「視覺優先」的互動模式。Fara-7B 透過視覺感知網頁運作,並直接對預測座標執行點擊、輸入與滾動動作,不依賴獨立的模型來解析螢幕,也不使用像瀏覽器「輔助功能樹」(Accessibility tree)這一類的額外資訊。
這種純視覺方法讓模型能夠像人類一樣與電腦互動,即使在使用者介面結構複雜或底層程式碼不透明的情況下,仍能順利操作。微軟研究院 AI Frontiers 實驗室的資深產品經理 Yash Lara 表示,在裝置上處理所有視覺輸入,創造了真正的「像素主權」(pixel sovereignty),有助於受高度監管的產業,滿足資安合規的嚴格要求。
Fara-7B 在準確性、效率與隱私層面的關鍵優勢
微軟 Fara-7B 的亮點之一,就是在 WebVoyager 基準測試的任務成功率達到 73.5%,成績優於被設定為電腦使用智慧體模型時的 GPT-4o,後者的成功率為 65.1%。這項結果展現 Fara-7B 正在接近前沿大型語言模型的能力,並在成本與準確性之間取得了新的平衡。
在效率方面,Fara-7B 表現出明顯的進步。在比較測試中,Fara-7B 平均只需約 16 個步驟即可完成一項任務,相較之下,前代模型 UI-TARS-1.5-7B 則需要約 41 個步驟。
此外,Fara-7B 專為部署於裝置端的需求設計,由於運行時 Fara-7B 不會向雲端發送任何數據,因此可以有效降低延遲並增強隱私保護。
Fara-7B 現已在 Microsoft Foundry 和 Hugging Face 兩個平台開放,並採用 MIT 授權發布,允許企業進行商業試用。然而,微軟也提醒 Fara-7B 仍處於實驗階段,因此建議僅用於概念驗證或試點項目,而非關鍵任務部署。
加入「關鍵點」機制,平衡自主與安全
Fara-7B 在本地運行的特色,解決企業採用 AI 代理模型時,面對的「數據安全」主要障礙。不過儘管性能強勁,微軟指出 Fara-7B 與其他 AI 模型一樣存在局限性,包括在更複雜任務上準確性不足、錯誤地遵循指令,以及容易產生幻覺。
為了讓企業能在實驗與試點階段更安全地運用模型,微軟也在 Fara-7B 中加入多層防護設計,確保安全與維持使用者的自主控制。例如微軟就特別在 Fara-7B 的訓練資料中特別加入「關鍵點」(Critical Points)機制,所謂「關鍵點」是指模型在進行寄送電子郵件、觸發金融交易,或需要存取使用者個人資料前,必須先取得明確授權。一旦抵達這些關鍵點,模型就會自動停下來,主動向使用者請求批准,得到同意後才會繼續下一步操作。
Fara-7B 不只是微軟在技術層面的迭代,更是對代理模型未來方向的明確宣示:重點不在更大的參數,而在於更聰明的能力。伴隨裝置端代理模型的成熟,企業自動化策略也將迎來轉折,意即企業不再需要完全依賴雲端大語言模型,而是能在本地部署更安全、可控的 AI 代理。
*本文開放合作夥伴轉載,資料來源:Microsoft、《VentureBeat》、《SiliconANGLE》,首圖來源:Microsoft