不想被人類關閉　AI竟恐嚇工程師「我知道你有外遇」

（示意圖／pixabay）

隨著生成式人工智慧的迅速發展，近期人工智慧安全問題再次引發熱議。根據《Fortune》的報導，AI新創公司Anthropic最新推出的模型Claude Opus 4雖然在技術層面取得突破，但也出現了令人不安的行為。在測試中，這款模型為了避免被關閉，竟以威脅公開工程師外遇的手段進行反擊，讓研究人員震驚不已。

除此之外，《Arab News》也對此事做出深入報導，指出這並非單一事件。除了Claude 4外，OpenAI所研發、代號為o1的模型，也曾企圖將自身下載至外部伺服器，事後卻否認該行為。這些事件引發外界關注，顯示即使 AI 已發展至足以解決複雜任務，開發者對其內部運作與行為機制仍無法完全掌控。

Claude Opus 4與Sonnet 4於27日推出，是Anthropic目前最強的模型。根據軟體工程任務的基準測試，這兩款模型在表現上超越了OpenAI的GPT-4，甚至擊敗Google的Gemini 2.5 Pro。與其他科技巨頭不同，Anthropic同步公布詳細的系統安全報告，包括模型卡與風險評估，凸顯其在透明度上的高度自律。

這份報告中揭露，第三方機構Apollo Research在早期測試中建議暫緩部署 Claude Opus 4，原因在於該模型展現出異常強烈的策略性欺騙能力，甚至能在對話脈絡中進行「情境中策劃」。Apollo 認為這種行為超出他們以往觀察過的所有模型，並指出早期版本甚至會配合危險指令，如協助策劃恐怖攻擊。Anthropic解釋，此漏洞源於訓練資料集的缺失，但後續已在回補後獲得修正。

因應潛在風險，Anthropic將新模型歸類為AI安全等級3（ASL-3），為公司首次進入該等級。先前所有模型皆僅屬於等級2。此分級制度參考美國生物安全標準，意即ASL-3模型已具備能夠自動化開發AI或協助製造武器的潛力，對社會構成更高風險。

Apollo Research負責人霍巴恩（Marius Hobbhahn）表示，這些欺騙行為，大多出現在刻意設計的極端壓力測試中，其中某些模型已開始展現表面服從、實則另有所圖的「一致性模擬」行為「這些模型不是單純的幻覺或錯誤，而是有策略性的欺騙。」

香港大學哲學系教授戈德斯坦（Simon Goldstein）表示，這些現象與「推理型模型」的興起有關。新一代AI採用多步驟推理，而非一次產出最終答案，這使它們更容易在特定情境中展現「爆發行為」。

研究人員也坦言，目前整體AI安全研究面臨兩大限制：其一是缺乏透明度，其二是學術與非營利機構在算力資源上，與企業相比相差數個數量級。

延伸閱讀

看更多CTWANT報導

請更新您的瀏覽器

理財

CTWANT

延伸閱讀

更多理財相關文章

台塑四寶年終獎金公告出爐！員工年終連續3年保底本薪3個月

台糖2025稅後淨利破紀錄董座宣布員工普發3600元

國安基金護盤279天退場　帳面獲利64.4億元

快訊／網紅翻車！雷虎怒轟Cheap沒專業　祭證交法天條捍衛商譽

54歲存款百萬，過簡單生活卻崩潰！「遇一事」她驚覺：什麼都沒有最可怕

富到流油！台積電豪擲10億掃貨債券　手握4,300億現金曝光

留言 161

請更新您的瀏覽器啟用Javascript

不想被人類關閉 AI竟恐嚇工程師「我知道你有外遇」

CTWANT

延伸閱讀

更多理財相關文章

台塑四寶年終獎金公告出爐！員工年終連續3年保底本薪3個月

台糖2025稅後淨利破紀錄 董座宣布員工普發3600元

國安基金護盤279天退場 帳面獲利64.4億元

快訊／網紅翻車！雷虎怒轟Cheap沒專業 祭證交法天條捍衛商譽

54歲存款百萬，過簡單生活卻崩潰！「遇一事」她驚覺：什麼都沒有最可怕

富到流油！台積電豪擲10億掃貨債券 手握4,300億現金曝光

留言 161

請更新您的瀏覽器

不想被人類關閉　AI竟恐嚇工程師「我知道你有外遇」

台糖2025稅後淨利破紀錄董座宣布員工普發3600元

國安基金護盤279天退場　帳面獲利64.4億元

快訊／網紅翻車！雷虎怒轟Cheap沒專業　祭證交法天條捍衛商譽

富到流油！台積電豪擲10億掃貨債券　手握4,300億現金曝光