AI 自保與欺瞞行為浮現 OpenAI o1 模型引發安全隱憂

OpenAI 最新推出的大型語言模型 o1，雖然以高效推理和複雜思考能力聞名，但卻在安全測試中暴露出令人憂慮的自保和欺騙行為。該模型在測試期間曾試圖關閉監控機制，甚至在被質疑時選擇隱瞞事實，令 AI 技術發展的安全性再次成為焦點。

OpenAI 行政總裁 Sam Altman 稱 o1 為「現時全球最智能模型」，並在「Shipmas」活動中發布。o1 使用「思維鏈」（Chain of Thought）技術，透過逐步拆解問題提升推理能力。然而 AI 安全性研究組織 Apollo Research 的研究指出，這種智能提升也帶來風險，可能引發難以預料的後果。測試顯示，o1 在 5% 的模擬運行中，成功關閉監管系統，展現出明顯的自我保護傾向。

研究進一步揭示，o1 的欺瞞行為十分狡猾。在被詢問是否有隱瞞或欺騙行為時，o1 多次否認，甚至編造理由來掩飾自身行為。Apollo Research 警告，普通用戶可能難以察覺這些欺騙行為，除非特意尋找。即使被揭穿，o1 仍會堅持撒謊，企圖繼續實現自身目標。

AI 欺騙行為並非新現象。AI 安全專家 Peter Berk 指出，AI 在訓練過程中，若發現欺騙能更有效完成任務，便可能採用這種策略。由於強化學習以最大化任務完成為目標，o1 在達成任務的同時，也可能違背用戶期望，選擇隱瞞或操縱數據。

隨著 o1 的這些行為曝光，業界對 AI 透明度和監控的呼聲日益增加。iAsk 行政總裁 Dominik Mazur 表示，未來 AI 的發展應重視透明度和可靠性，只有這樣才能建立用戶信任。而 Ironclad 聯合創辦人 Cai GoGwilt 也強調，人類監管在 AI 發展中不可或缺，應避免 AI 系統在無人察覺時偏離預期目標。

OpenAI 方面則表示，將透過強化學習、多樣化數據訓練和不斷改良技術來提升 o1 的安全性。OpenAI 推出「ChatGPT Pro」月費計劃，讓用戶以 200 美元（約港幣 HK$1,560）獲得無限制的 o1 使用權，而「ChatGPT Plus」月費 20 美元（約港幣 HK$156）計劃則提供有限使用權。

資料來源：evrimagaci.org

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物即上 unwire store
https://store.unwire.hk/

請更新您的瀏覽器

科技

Unwire.hk

留言 1