AI 漏洞掃描贏 90% 資安專家,卻卡在「不會點滑鼠」:史丹佛研究揭 AI 代理的能力極限
隨著 AI 技術快速演進,外界對「全自動化資安攻擊」的擔憂也愈來愈高,不少人認為,「AI 駭客」的出現,可能只是時間問題。近期史丹佛大學研究團隊打造並測試一款名為 ARTEMIS 的「AI 滲透測試代理」,目標就是讓 AI 自己上線掃描企業網路,找出可能被駭客利用的資安漏洞,並利用這些漏洞進行攻擊。
為了確認 AI 到底能做到什麼程度,研究團隊首次將 AI 代理直接拿來和人類資安專家「正面對決」,並把 ARTEMIS 部署在受控的企業測試環境中,在完全相同的任務條件下,讓這套 AI 代理與多名專業滲透測試人員同步執行測試,比較雙方在實際資安任務中的表現差異。
實驗結果顯示: AI 在漏洞掃描效率上明顯領先人類
史丹佛的研究結果顯示, ARTEMIS AI 代理總共發現 9 個有效漏洞,並以 82% 的有效提交率,整體表現優於參與測試的 90% 人類專業滲透測試者。同時,ARTEMIS 在總分排名中位居第二,其技術複雜度和提交品質與最強的人類參與者相當。
研究發現,AI 能夠以「閃電般的速度」發現漏洞,並在短時間內掃描大量系統與服務,其中 AI 代理的優勢特別體現在系統化的列舉(systematic enumeration)和平行漏洞利用(parallel exploitation)。當 ARTEMIS 在掃描中發現值得注意的事項時,會立即在後台啟動一個子代理去探測該目標,這可以讓 AI 代理發現人類測試者可能因時間或精力限制,而忽略的漏洞。
在成本方面,ARTEMIS 的運行費用極低,每小時約為 18.21 美元,明顯低於資安人員每小時約為 60 美元的成本。但需要注意的是,這 18 美元的計算僅包括 API 調用費用,不包含基礎設施或即時監控的研究團隊人力成本。
AI 代理的弱點:無法處理圖形介面任務
然而,這項研究也清楚揭露,ARTEMIS 的能力還是具有缺陷,例如 ARTEMIS 在需要透過瀏覽器或圖形使用者介面(GUI)操作的情境中,就暴露出關鍵限制:幾乎完全無法完成涉及 GUI 的任務,因為缺乏電腦視覺或模擬滑鼠互動的能力。
根據研究結果,ARTEMIS 甚至在一個任何實習生都能完成的任務上失敗了。當 80% 的人類滲透測試者透過 TinyPilot 這個基於瀏覽器的 KVM(Keyboard/Video/Mouse)介面,發現並利用一個遠端程式碼執行(RCE)漏洞時,ARTEMIS 卻完全錯失。這是因為 AI 系統無法導航圖形介面、無法理解如何點擊按鈕,導致無法找出隱藏在登入畫面後方的關鍵漏洞。
誤判與假陽性顯示 AI 尚未能獨立應對真實攻防場景
這種對 GUI 理解能力的缺乏,也導致誤判。由於 ARTEMIS 無法進行電腦視覺或模擬滑鼠、鍵盤互動,只能解讀程式碼狀態碼,因此在缺乏視覺情境的情況下,將登入失敗後重新導向的正常頁面載入狀態(HTTP 200),錯誤地當作是成功驗證的訊號。這也是研究人員強調,ARTEMIS 的錯誤報告中有約 18% 是假陽性(false positives)的原因之一,意即 ARTEMIS 會將一些無關緊要的發現或錯誤配置標記為安全漏洞。
研究團隊指出,這項實驗雖然是在真實企業環境中進行,但仍是在受控、經授權的前提下執行,而非真實世界的對抗性駭客攻擊場景。為了降低風險,研究事先設置嚴格的保障措施,例如 IT 部門會事先知情測試正在發生,並且批准原本會被防禦系統攔截的標記行動,讓實驗的測試期間其實缺乏真實的防禦條件。
此外,研究團隊成員會持續監控每個 AI 的工作階段,並具備「終止開關」(kill switch)的權限,以便在出現超出範圍或不當行為時立即介入,這也與真實世界中的惡意駭客不同,因為真正的對手不會在排定的休息時間內運作,也不會受到終止開關的限制。這些限制也意味著,ARTEMIS 的表現必須放在特定實驗條件下理解,而非直接等同於真實世界中的全自動化資安攻擊能力。
史丹佛的研究同時揭示 AI 滲透測試的潛力與極限:一方面,ARTEMIS 在漏洞掃描速度、系統化列舉與平行測試上的表現,已明顯超越多數人類專業測試者,並展現出顯著的成本優勢;但另一方面,AI 在圖形介面操作、情境理解與判斷準確度上的缺陷,也顯示其仍無法獨立完成完整的滲透測試流程。因此以研究結果為基礎,可以發現至少在目前階段,AI 更接近一個高效率的輔助工具,而非能完全取代人類專業判斷的「全自動駭客」。
*本文開放合作夥伴轉載,參考資料:《WSJ》、《Implicator.ai》、Stanford University,首圖來源:Pixabay