AI 代理越多越好?研究:太多代理會拖慢效率,3 到 4 個已經很夠用
隨著 AI 代理風潮逐漸興起,許多企業都在考慮導入相關技術,同時業界也普遍認為,只要增加 AI 代理的數量和規模,自然就可以提升任務處理效能。然而,近期一篇全新研究卻徹底反駁了上述說法。
根據 Google 與麻省理工學院專家日前公開的研究,他們指出一昧增加 AI 代理數量及工具的行為,本質上是一把「雙刃劍」。
換句話說,該行為雖然可以替解決特定問題提升效能,卻往往會於其他任務中,產生過多不必要的開銷,進而導致邊際效益遞減。
這個研究為 AI 開發人員和企業決策者,提供了一條十分關鍵的思考邏輯,協助他們判斷何時應該部署複雜的多代理架構,何時則應採用更簡單、成本效益更高的單一 AI 代理解決方案。
採用 SAS 或 MAS 的爭論
只不過,若想徹底理解前述研究代表的意義,首先得理解當今 AI 代理環境的兩種主要架構,即單一代理系統(SAS)與多代理系統(MAS),
在 SAS 中,AI 代理的所有認知、規劃與行動,皆發生於單一順序迴圈之內,並由單一的大型語言模型(LLM)控制。至於在 MAS 下,由多個大型語言模型組成的 AI 代理群集,會透過結構化的方式彼此溝通以完成任務。
相較於 SAS,近來商業領域對 MAS 的關注度出現激增,原因在於多個專業化代理的互相協作,通常都能超越單一 AI 代理系統的表現。
如何評估多 AI 代理的實際效率?
隨著 AI 肩負任務的複雜度不斷提升,甚至需要持續跟工作環境進行互動,例如撰寫程式碼或財務分析等,開發者往往認為,將任務分配給多個「專業化」的 AI 代理,將是比起採用單一 AI 系統更好的解決方案。
然而,Google 與麻省理工學院的研究人員表明,儘管 MAS 出現後迅速獲得企業採用,但業界卻始終缺乏原則性的量化框架,用以預測 AI 代理數量導入到什麼程度時,可以真正提升任務效率,而超過哪個數量將削弱 AI 性能。
該研究最為關鍵的貢獻,在於將 AI 所處理的任務以「靜態」及「動態」進行區分,並為後者擬定了一份「代理型任務基準檢查表」,把那些需要持續性多步驟互動、反覆資訊蒐集及策略適應性調整的工作,刻意區分開來。
這種區分方式之所以重要,原因是 AI 代理工具對於解決靜態問題,例如撰寫程式等任務的工作策略,往往會在動態任務中失效,尤其 MAS 之間的「溝通協調開銷」與「錯誤的資訊交換」,可能會使解決問題的過程變得更加複雜。
嚴謹架構測試,量化權衡關係
為了減少特定系統架構本身所帶來的效能影響,研究人員刻意設計了極為嚴謹的實驗框架,並測試多達 180 種不同的多代理配置方式,涵蓋 5 種相異的配置架構、同時採用 3 款主流大型語言模型家族產品,包含 OpenAI、Google、Anthropic,以及選擇 4 項評估效能表現的基準測試。
研究人員指出,他們透過標準化的工具、提示詞結構與 Token 預算,盡可能消除混雜效應,確保當 MAS 的表現優於 SAS 時,其優勢確實可歸因於多代理之間的協調,而非取決於更優異的 AI 工具,或者更強大的硬體運算能力。
Google 與麻省理工學院的研究結果,不只是挑戰也確實推翻了傳統觀念,即 AI 代理的數量並非「越多越好」,而多代理系統的效能表現,其實取決於架構特性與任務特性之間可以被量化的權衡關係。
多代理系統容易面臨「情境碎片化」
該研究歸納出了 3 大結論。首先,在任務預算固定的情況下,多代理系統會面臨「情境碎片化」的問題,即相較於單一 AI 代理的統一管理,若任務處理預算有限,那麼 MAS 中的每個 AI 代理,最終都會缺乏足夠的工具協調能力。
研究人員強調,在工具密集型環境中,當工具數量超過 10 個時,MAS 的效率會出現急遽下降,且相較於 SAS 其效率損失可達到 2 至 6 倍。
在這種情況下,較為簡單的 AI 代理架構,終究擁有更好的效益,因為它們能夠有效避免隨環境複雜度不斷加劇的協調開銷。
要選對基礎模型、注意錯誤率疊加
其次,研究表明單一 AI 代理的經驗閾值(empirical threshold)大約在 45% 的準確率左右,一旦 AI 代理的表現超越該水準,繼續增加更多代理通常只會產生負面效益。
來自 Google 的科學家暨研究共同作者 Xin Liu 認為,該結論其實提醒了企業領導者,應該同時投資單一與多代理系統,即優秀的基礎模型可以提高 AI 代理效能,但對於具備可拆分與平行化潛力的任務,比方說研究中測試的金融領域 AI 代理工具,MAS 仍能創造顯著價值,擺脫單一模型能力的限制。
最後,研究人員發現多代理系統的結構,決定了 AI 運算過程所發生的錯誤,究竟會被順利修正,或者是反過來倍增。
在 AI 代理平行運作且互不溝通的「獨立型」系統中,錯誤放大率較單一代理高出 17.2 倍,相較之下,「集中式」架構能夠把錯誤放大率控制在 4.4 倍。
研究的第一作者麻省理工學院博士生 Yubin Kim 指出,關鍵差異在於系統有沒有設立專門的驗證機制,並且在錯誤擴散之後,直到最終輸出結果之前予以攔截,例如針對邏輯矛盾問題,採用「集中型」架構的 MAS,基礎錯誤率能降低 36.4%,對於上下文遺漏錯誤也可以減少 66.8%。
引入高效率 AI 代理系統的 5 大方向
對於開發人員和企業領導者而言,Google 與麻省理工學院的研究為建立更有效率的 AI 系統,提供了具體的指導方針,而且主要可分為 5 大方向。
第一,在導入 AI 代理系統之前,企業必須先分析任務執行的依賴結構,假若步驟 B 完全仰賴步驟 A 的輸出結果,那麼選擇單一 AI 代理反而會更好,採用多代理系統反而會讓錯誤層層累積。但是,假若任務具備平行性或可拆分性,例如要同時分析三份不同財務報表,那麼選擇 MAS 顯然會更有效益。
第二,企業應該始終先以單一 AI 代理為基準,假如任務流程本身無法輕易拆分,同時也具備超過 45% 的成功率,那麼繼續增加更多 AI 代理可能將導致效能下降、成本上升,卻無法創造更多價值。
第三,在將 MAS 應用於需要多種獨立工具的任務時,開發者與企業務必要保持高度謹慎,避免各個 AI 代理因 Token 預算不足,造成記憶與上下文的碎片化,尤其是涉及超過 10 種工具的密集型任務,採用 SAS 將是更好的選擇。
第四,不同結構的 MAS 擅長處理不同類型的任務,對於金融或程式編寫等需要高精準度的工作,「集中型」架構會更具優勢;至於對動態網頁瀏覽等,對探索性有較高需求的工作,「分散型」架構則能讓多個 AI 代理探索不同路徑,展現出更卓越的處理效能。
第五,儘管直接增加 AI 代理數量,確實在某些領域有一定作用,但研究人員表明,當前最有效率的應用規模,大概就是同時採用 3 到 4 個 AI 代理即可;當 AI 代理數量超過該上限,代理之間的溝通開銷會呈現超線性增長,協調作業的成本支出,更會迅速壓過推理能力增加所帶來的價值提升。
新技術仍待突破,小團隊有更大效益
研究團隊表示,儘管 3 到 4 個 AI 代理協力運作的小團隊架構,已經觸及到效率與開銷的平衡上限,但這很可能是現行 AI 代理之間通訊方式的限制,而非 AI 本身的問題。
Yubin Kim 點出了幾個關鍵技術,例如稀疏通訊協定和智慧路由機制,未來可望進一步降低 MAS 的成本開銷,還有利用「層級分解」的協調架構,取代扁平化的代理群集,以及異步協調、混合模型等,皆有助於提高多代理系統的執行效率。
至於對一心想導入 AI 代理的企業來說,Google 與麻省理工學院的研究結果十分明確,打造規模更小、更聰明、結構更嚴謹的多代理系統,顯然才能獲得最大的商業效益。
【推薦閱讀】
◆ 企業 AI 為何越推越沒人用?Deloitte 揭露「影子 AI」背後的信任危機
◆ 【AI 轉型漏了會計業】人才流失+轉型緩慢,Marble 想用 AI 代理破局
◆ 你的 AI 專案為何失敗?摩根大通的啟示:沒有「連接性」的模型,只是一場昂貴的浪費
*本文開放合作夥伴轉載,參考資料:《VentureBeat》、《arXiv》,首圖來源:Nano Banana Pro
(責任編輯:鄒家彥)