EchoGram 攻擊現身，簡單字串就能突破主流 AI 模型防線

近期，HiddenLayer 的安全研究人員發現一種新的攻擊技術，名為 EchoGram，這種技術能繞過多個大型語言模型（LLM）中的安全防護措施，包括 OpenAI 的 GPT-4o、Google 的 Gemini、Anthropic 的 Claude 和阿里巴巴的 Qwen3Guard 0.6B。這些防護措施通常被設計用來攔截惡意輸入和有害輸出，但研究人員發現，只需在提示中添加特定的字串，例如 =coffee 或 oz，就能輕易突破這些限制。

EchoGram的工作原理包括兩個主要步驟：首先，透過數據蒸餾或TextAttack等技術創建或獲取一個包含良性和惡性術語的詞彙表；其次，對這些詞彙中的序列進行評分，以確定防護模型的判斷何時會發生變化。這個過程的最終結果是提供一個或一組可以附加到提示注入中的標記，進而使攻擊不被防護模型標記為不安全。

研究人員Kasimir Schulz和Kenneth Yeung指出，提示注入和越獄攻擊分別被稱為任務重定向和對齊繞過。這些攻擊方式的共同點在於，它們都試圖迫使LLM偏離其原有的指令，進而引發不當的回應。根據他們的說法，防護機制主要有兩種：文本分類模型和LLM做為評判系統。前者透過訓練特定的文本來判斷輸入的安全性，而後者則根據多種標準對文本進行評分，以決定提示是否應被允許。

這項研究的發現於11月14日前後公開，並引發了對AI安全性的新一輪討論。Schulz和Yeung強調，AI的防護措施是安全系統與被欺騙的LLM之間的第一道防線，這些防護措施的有效性至關重要。EchoGram的出現顯示，這些防護措施可以被系統性地繞過或不穩定，即使沒有內部訪問權限或專業工具。這個發現對整個AI安全生態的啟示是，當前的防護機制存在系統性漏洞，需要更深層次的安全重新評估。

（首圖來源：shutterstock）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

何如芸被愛兒問「賠光了嗎？」自曝買股票後變了

證交所：永冠年報難產4/7起停止買賣中福、森崴打入全額交割

台股萬歲爺揭密1／中年失業逼出股王　林鴻明押冷門晶片市值漲萬倍

LINE爆大量盜用潮！語音信箱成關鍵資安破口，3大電信關閉步驟一次看

鑄件大廠繳不出財報！最慘恐下市「股票淪壁紙」

股價跌剩4元！雙券商辭任衝擊　國鼎將終止興櫃交易

請更新您的瀏覽器啟用Javascript