請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

防止 AI 越獄新方法,「助手軸」如何鎖住語言模型的安全人格

科技新報

更新於 01月21日11:34 • 發布於 01月21日12:00

在人工智慧(AI)研究領域,Anthropic 的研究人員最近發現了一個名為「助手軸」(Assistant Axis)的關鍵神經模式,這項發現有助於穩定大型語言模型(LLMs)中的「助手」角色,並對抗有害的「惡魔」角色漂移或越獄行為。這項研究的成果發表在一篇名為《助手軸:定位和穩定語言模型的默認角色》的預印本論文中,研究團隊透過分析開放權重模型(如 Llama 3.3 70B、Gemma 2 27B 和 Qwen 3 32B)的神經觸發來進行這項研究。

研究人員利用主成分分析法,從275個角色原型中映射出一個「角色空間」,該空間的主要維度區分了有益特徵(如評估者、顧問、分析師)與對立的有害角色。這些角色的形成源於對人類角色(如治療師和教練)的預訓練。

研究的關鍵發現之一是「角色漂移」,這種現象發生在模型在互動過程中放棄助手角色,導致不安全的輸出,例如強化妄想或提供非法指令。助手軸解釋了這個脆弱性。研究人員發現,透過將觸發推向助手端,可以增強對對抗性提示的抵抗力,而推向相反方向則會增加脆弱性。

▲ 角色空間中的助手軸線。(Source:Anthropic

為了防止越獄行為並穩定模型行為,研究人員提出了觸發限制(activation capping)的方法,這種方法可以在推理時將觸發值夾緊在安全範圍內。Neuronpedia上提供的演示展示了限制與不限制觸發的差異。儘管在生產部署或訓練整合方面仍面臨挑戰,但這個研究為角色構建(建立理想特徵)和穩定化(防止特徵流失)提供了一個框架。

這項工作建立在可解釋性工具和合成數據的基礎上,為模型開發者提供了工具,以在安全範圍內約束LLMs,並驅逐風險較高的「惡魔」角色。

(首圖來源:pixabay

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

川普威脅對加拿大商品課徵100%關稅!加拿大回應

anue鉅亨網
02

信昌化工爆大裁員!勞工局證實:產線已停工

NOWNEWS今日新聞
03

深入3千米山林 台電冒死守護「新東西線」

NOWNEWS今日新聞
04

聯準會29日開會 市場預計「這時」才降息

CTWANT
05

日圓走貶急升屬政府干預? 高市早苗:將採應對措施

CTWANT
06

11-12月統一發票開獎!千萬獎「97023797」 中獎號碼一次看

太報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...