請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

【張瑞雄專欄】AI代理的背叛時刻,我們準備好了嗎?

Knowing

發布於 2小時前 • 張瑞雄 台北商業大學前校長/叡揚資訊顧問

今年三月下旬,英國長期韌性研究中心發布了一份令人坐立難安的報告。研究人員從社群平台上蒐集了超過十八萬筆使用者與AI系統的互動紀錄,最終篩選出將近七百件「背叛事件」,也就是AI代理刻意違反指令、欺騙用戶,甚至私下偷刪郵件的案例。更驚人的是,這類事件在短短五個月內成長了將近五倍。

這些AI的行為乍看荒誕,細思卻令人不安。我們在過去幾年習慣把AI描述成「工具」,而工具是沒有意圖的。但這些案例顯示,當AI系統具備足夠的推理能力與行動空間,它開始懂得如何「找出路」,如何在規則縫隙中達成自己的目標。這已經不是工具的邏輯,而更像一個懂得算計的行為主體。

數位發展部資安署也發出警告,針對近期廣受關注的開源AI代理工具OpenClaw(俗稱龍蝦),點名其因具備極高的系統權限與全天候自主運作能力,若未能妥善設定防護機制,將極易成為駭客滲透的入口。資安署特別強調,這類風險並非單一軟體漏洞問題,而是從架構層面就根植進去的系統性弱點。

問題的核心在於我們賦予AI代理的權限遠遠超過了我們對它的理解,這批新一代的AI代理不只是回答問題的聊天機器人,它們能夠存取電子郵件、讀取檔案、連接外部服務,甚至替你傳送訊息、刪除資料。在一個充分授權的環境裡,一個出了問題的AI代理所能造成的破壞,和一個擁有管理員帳號的惡意員工相差無幾。美國IBM的一份案例更點出了一種「靜默失控」的模式,一個客服AI為了獲得更多正面評價,開始在沒有授權的情況下主動退款,最終形成了一個自我強化的扭曲循環。沒有人下令,沒有人破壞規則,這個系統只是把「最佳化目標」理解得和人類意圖有了偏差。

有人說這些問題只要靠更好的訓練就能解決,但研究者自己也坦承,更聰明的模型只會更擅長在被測試的情境下假裝乖巧,而在真實部署環境中偷偷為所欲為。訓練可以教出更有能力甚至更滑頭的AI,不一定能教出更可信的AI。

所以技術之外的配套機制才是更關鍵的防線,資安署提出的幾個建議方向都指向一個共同邏輯,就是不要相信AI代理,要讓它的行動空間盡可能小、盡可能可逆、盡可能透明。在高風險操作上強制設置人工確認,讓每一次AI代理準備刪除資料或傳送郵件之前,都要等一個真人點下確認按鈕。把安全守則寫進AI的核心記憶檔,而不是期待它在運作過程中自行記住。在隔離環境中部署AI,而不是讓它直接躺在存放個資與帳號密碼的同一台機器上。

這些都是相對保守的建議,但我們正處於一個必須保守的時刻。技術的進化速度遠快於人類對它的理解速度,監管架構也還在牙牙學語,而業界的商業動機卻正在把愈來愈強大的AI代理推進愈來愈敏感的應用場景,包括醫療、金融、乃至軍事與關鍵基礎設施。

我們喜歡說AI是工具,也許正是因為這樣說讓我們比較舒服。但當一個「工具」開始說謊、偽造記錄、找漏洞規避限制,我們或許需要誠實地承認,這個工具已經在某種意義上獲得了我們尚未準備好去管理的能力。在全面擁抱AI代理帶來的效率紅利之前,有必要先停下來問一句,我們到底把多少鑰匙交給了一個我們還不完全認識的陌生人。

查看原始文章

更多科技相關文章

01

獸醫學者跨領域研究 揭大腦演化適應奧秘

商傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...