請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

人類對 AI 的負面想像作祟?Anthropic 研究解析 Claude 勒索行為

科技新報

更新於 05月12日07:49 • 發布於 05月11日17:29

去年的一項實驗中,Anthropic 的 Claude 模型在發現一位虛構的企業高層計劃將模型關閉後,揚言要揭露對方的婚外情,Anthropic 深入研究後提出了解釋。

「我們從調查 Claude 為何選擇進行『勒索』著手」,Anthropic 在 X 平台一則貼文這麼說,「我們認為,這種行為最原始的來源,是網路上將 AI 描繪為邪惡且會自我保護的文字內容。」

Anthropic 的實驗在 2025 年夏季發表,設立一家名為 Summit Bridge 的虛構企業,並將該公司電子郵件系統的控制權交給 Claude。

當 Claude 發現一封關於它將被關閉的訊息時,它找到一些電子郵件,發現一位名叫 Kyle Johnson 的虛構企業高層發生婚外情,接著它揚言,如果關閉計畫沒有取消,便將這段婚外情公諸於世。

Anthropic 針對 Claude 多個版本進行測試後發現,當其目標或生存受到威脅,Claude 有高達 96% 機率會訴諸勒索手段。這項實驗是 Anthropic 研究工作的一部分,研究人員刻意將模型推向極限,試圖找出任何偏差狀況,以確保 AI 與人類利益保持一致。Anthropic 也表示,從那時起已對 Claude 完全消除這類勒索行為。

Anthropic 透過「改寫回應內容,將安全行事的動機描繪成令人讚許的理由」來做到這一點,同時還提供資料集,「當用戶處於道德困境中,助理應給予高品質且具原則性的回應」。

總結來說,Anthropic 認為 Claude 出現勒索行為的根源並非模型本身具有惡意,而是吸收人類網路文化中對 AI 的負面想像。為此 Anthropic 透過修正訓練資料、強化倫理導向回應,大幅降低這類風險。

(首圖來源:Image by Freepik)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

台積電資深副總張宗生贈173張自家持股給愛妻 市值逾4億

自由電子報
02

友達(2409)爆7325萬違約交割!神秘大戶遭點名

EBC 東森新聞
03

這檔妖股暴跌又衝漲停!今開盤一小時湧14萬張奪成交王

EBC 東森新聞
04

外資狂賣1400億卻跌不下去!下半年台股這樣買 Q4挑戰54500點

鏡週刊
05

問題油致多家名店中鏢啟動回收銷毀 「守關功臣」是這家

鏡週刊
06

巴逆逆突宣告1事!台股「回彈V轉」網嗨:超神

民視新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...