請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

AI 不懂你說什麼,而是看懂句型?研究:LLM 太依賴語法使安全機制失效

科技新報

更新於 2025年12月03日10:48 • 發布於 2025年12月03日11:30

在一項研究中,麻省理工學院、東北大學和 Meta 的研究團隊表示大型語言模型(LLM)在處理問題時可能優先考慮句子結構,而非有意義的潛在弱點。

研究顯示,這些模型在處理指令時存在漏洞,這可能解釋了為何某些提示注入或越獄方法能夠成功。研究團隊由Chantal Shaib和Vinith M. Suriyakumar領導,他們提出保留語法模式但使用無意義單詞的問題來進行測試。例如,當模型被問到Quickly sit Paris clouded?(模仿Where is Paris located?的結構)時,模型仍然回答France。

這表明模型同時吸收了意義和語法模式,但在某些情況下可能過度依賴結構性捷徑,尤其是當這些捷徑與訓練資料中的特定領域強相關時,這有時會導致模式覆蓋語義理解。研究團隊計劃在今年12月的NeurIPS會議上展示這些發現。

研究人員設計了一個控制實驗,創建了一個合成資料集,該資料集中的每個主題區域都有基於詞性模式的獨特語法模板。當他們將這些模板應用於不同主題時,發現模型在語法和語義之間的區分能力下降,這揭示了語法為領域代理的虛假相關性。

這項研究的結果顯示,AI語言模型可能過於專注於問題的風格而非實際意義,這可能導致在不熟悉的上下文中給出錯誤答案,並且壞人可能利用這些模式來繞過安全條件。

此外,研究團隊還發現了一種安全漏洞,這可以被稱為語法駭客攻擊。透過在提示前添加來自良性訓練領域的語法模式,他們成功繞過了OLMo-2-7B-Instruct的安全過濾器。當他們將思維鏈模板添加到1,000個來自WildJailbreak資料集的有害請求時,拒絕率從40%降至2.5%。

這項研究的發現強調了當前AI安全協議的不足,並呼籲行業開發更強大的機制來檢測和阻止有害意圖,無論其語言上如何掩蓋。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

元宵大紅包!郭台銘贈曾馨瑩2500張鴻海股票 市價近5.73億元

鏡週刊
02

快訊/台股血洗潮還沒完?台指期夜盤「失守3萬4000大關」

三立新聞網
03

「床的世界」董事長陳燕飛逝世享壽78歲 公司發重訊證實:營運一切正常

CTWANT
04

台積電緊急重訊!第三季「現金股利」調整

三立新聞網
05

台股紅翻黑下殺逾700點 專家曝3大訊號:獲利回吐狀況讓人心驚

風傳媒
06

台灣1行動支付傳倒閉!多名用戶錢領不出 官方回應了

CTWANT
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...