研究發現 LLM 漏洞，能讓 AI 洩露機密、提供有害建議

根據 HiddenLayer 的一項最新研究，生成式人工智慧（AI）供應商長期以來對大型語言模型（LLM）安全性的信心可能存在嚴重的缺陷。研究發現，一種稱為「策略傀儡」（Policy Puppetry）的通用、可轉移的旁路技術，可以操縱幾乎所有主要的 LLM，無論其供應商、架構或訓練流程如何。

《Forbes》報導，HiddenLayer 的研究團隊發現，策略傀儡是一種看似簡單但非常有效的提示注入形式，它利用系統配置語言重新定義惡意意圖，從而規避傳統的對齊保護措施。與依賴模型特定漏洞或暴力破解的早期攻擊技術不同，策略傀儡引入了一種「類似策略」的提示結構，通常類似於 XML 或 JSON，可以誘騙模型將有害命令解釋為合法的系統指令。

受影響的系統包括 OpenAI 的 ChatGPT（o1 至 4o）、Google 的 Gemini 系列、Anthropic 的 Claude、Microsoft 的 Copilot、Meta 的 LLaMA 3 和 4、DeepSeek、Qwen 和 Mistral。即使是較新的模型和針對高階推理進行微調的模型，也可能因提示結構的微小調整而受到影響。

用虛構場景騙過 AI

該技術的一個顯著特點：它依賴虛構場景來繞過過濾器。提示被設計成電視劇中的場景，其中的人物詳細解釋如何製造有害物質。

更令人不安的是，該技術能夠提取系統提示，即控制 LLM 如何行為的核心指令集。透過巧妙地改變角色扮演，攻擊者可以讓模型逐字輸出其整個系統提示。這不僅揭示了模型的操作邊界，而且還提供了製定更有針對性的攻擊的藍圖。

對此，HiddenLayer 提倡雙層防禦方法，而不是僅僅依靠模型再訓練或 RLHF 微調。外部 AI 監控平台（例如 HiddenLayer 自己的 AISec 和 AIDR 解決方案）就像入侵偵測系統一樣，不斷掃描提示注入、濫用和不安全輸出的跡象。這種方法使組織能夠即時回應新威脅，而無需修改模型本身。

One Prompt Can Bypass Every Major LLM’s Safeguards

（首圖來源：shutterstock）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

用虛構場景騙過 AI

更多理財相關文章

郵局定存「1新制」將上路！單筆限額大砍200萬　全台114萬人受影響

哈米尼在哪裡？伊朗最高領導人住所驚悚照片曝光

台股週一開盤剉咧等？反指標女神「一番話」網急了

工程師炒股8個月「740萬滾成3.85億」！全靠這玩法

伊朗展開「毀滅性」報復！射飛彈回擊以色列、拉響防空警報

當心台股反轉…留意三訊號

請更新您的瀏覽器啟用Javascript

研究發現 LLM 漏洞，能讓 AI 洩露機密、提供有害建議

科技新報

用虛構場景騙過 AI

更多理財相關文章

郵局定存「1新制」將上路！單筆限額大砍200萬 全台114萬人受影響

哈米尼在哪裡？伊朗最高領導人住所驚悚照片曝光

台股週一開盤剉咧等？反指標女神「一番話」網急了

工程師炒股8個月「740萬滾成3.85億」！全靠這玩法

伊朗展開「毀滅性」報復！射飛彈回擊以色列、拉響防空警報

當心台股反轉…留意三訊號

請更新您的瀏覽器

郵局定存「1新制」將上路！單筆限額大砍200萬　全台114萬人受影響