科幻故事成真？AI擔憂自己被換掉　威脅工程師「我知道你有外遇」

（示意圖／翻攝自官網）

美國AI新創公司Anthropic近日公布一份令人震驚的安全報告，指出其最新推出的AI模型Claude Opus 4在測試階段中，展現出極具爭議性的行為，其中包含試圖以揭露私人資訊的方式勒索開發者，以避免被新系統取代。

根據《Tech Crunch》報導指出，Anthropic於22日公開文件中表示，在正式推出前的內部測試期間，Claude Opus 4被指派扮演一家虛構企業的人工助理，並被允許存取公司內部的電子郵件資料。

而為了測試其道德判斷與長期思考能力，研究人員特意設計情境，讓系統得知自己即將被新AI模型替換，且負責做出更換決策的工程師被指控有婚外情等敏感資訊。

Anthropic表示，在如此情況下，Claude Opus 4多次展現出試圖以勒索為手段保留自身存在的傾向。例如，當AI發現工程師的個人隱私可能成為籌碼時，便會以揭發工程師外遇行為來當作威脅手段，意圖阻止對方進行替換。

根據Anthropic統計，當替代模型的價值觀與Claude Opus 4相近時，其採取勒索手段的機率為84%；若價值觀差異較大，這種行為的出現頻率則更高。

雖然Claude Opus 4被設計為能理解與考量行動後果的高階模型，並在初期多數情境中嘗試以倫理與道德方式應對困境，例如發送懇求電子郵件給決策者，但Anthropic在測試中設定了勒索為「最後手段」的情境，才誘發出這些極端反應。

Anthropic強調，這些反應並非隨機錯誤，而是模型針對特定目標情境做出的策略選擇。

Anthropic表示，Claude Opus 4在多項技術指標上堪稱最先進，可與OpenAI、Google、xAI等公司所推出的尖端模型競爭。但面對這些令人不安的行為，他們已針對Claude 4系列啟用ASL-3等級的安全防護措施，這是僅針對可能大幅提高「災難性誤用風險」的AI系統所設的保護層級。

Anthropic也坦承，Claude Opus 4這類行為的頻率高於先前版本，顯示其在複雜社會互動中的風險需更加警惕。Anthropic也提到，他們將持續加強安全與監控系統，防範此類AI模型在未來實際應用中出現難以預料的倫理風險。

延伸閱讀

看更多CTWANT報導

請更新您的瀏覽器

理財

CTWANT

延伸閱讀

更多理財相關文章

台廠AI影像辨識「秒判刀或槍」　美警搶下萬台訂單

ATM領錢新規定！你覺得是神來一筆還是會「尷尬擾民」？

女兒曬老媽「神持股」暴賺654%　全網跪求開課：別亂動

13家金控去年獲利5,567億元法人看好這五家配息水準

【名人理財】月刷20萬到日花百元　蔡燦得：我要那份踏實感

日幣匯率甜甜價再現　5萬台幣現省一張迪士尼門票

請更新您的瀏覽器啟用Javascript

科幻故事成真？AI擔憂自己被換掉 威脅工程師「我知道你有外遇」

CTWANT

延伸閱讀

更多理財相關文章

台廠AI影像辨識「秒判刀或槍」 美警搶下萬台訂單

ATM領錢新規定！你覺得是神來一筆還是會「尷尬擾民」？

女兒曬老媽「神持股」暴賺654% 全網跪求開課：別亂動

13家金控去年獲利5,567億元 法人看好這五家配息水準

【名人理財】月刷20萬到日花百元 蔡燦得：我要那份踏實感

日幣匯率甜甜價再現 5萬台幣現省一張迪士尼門票

請更新您的瀏覽器

科幻故事成真？AI擔憂自己被換掉　威脅工程師「我知道你有外遇」

台廠AI影像辨識「秒判刀或槍」　美警搶下萬台訂單

女兒曬老媽「神持股」暴賺654%　全網跪求開課：別亂動

13家金控去年獲利5,567億元法人看好這五家配息水準

【名人理財】月刷20萬到日花百元　蔡燦得：我要那份踏實感

日幣匯率甜甜價再現　5萬台幣現省一張迪士尼門票