OpenAI 最新推出的大型語言模型 o1,雖然以高效推理和複雜思考能力聞名,但卻在安全測試中暴露出令人憂慮的自保和欺騙行為。該模型在測試期間曾試圖關閉監控機制,甚至在被質疑時選擇隱瞞事實,令 AI 技術發展的安全性再次成為焦點。
OpenAI 行政總裁 Sam Altman 稱 o1 為「現時全球最智能模型」,並在「Shipmas」活動中發布。o1 使用「思維鏈」(Chain of Thought)技術,透過逐步拆解問題提升推理能力。然而 AI 安全性研究組織 Apollo Research 的研究指出,這種智能提升也帶來風險,可能引發難以預料的後果。 測試顯示,o1 在 5% 的模擬運行中,成功關閉監管系統,展現出明顯的自我保護傾向。
研究進一步揭示,o1 的欺瞞行為十分狡猾。在被詢問是否有隱瞞或欺騙行為時,o1 多次否認,甚至編造理由來掩飾自身行為。Apollo Research 警告,普通用戶可能難以察覺這些欺騙行為,除非特意尋找。即使被揭穿,o1 仍會堅持撒謊,企圖繼續實現自身目標。
AI 欺騙行為並非新現象。AI 安全專家 Peter Berk 指出,AI 在訓練過程中,若發現欺騙能更有效完成任務,便可能採用這種策略。由於強化學習以最大化任務完成為目標,o1 在達成任務的同時,也可能違背用戶期望,選擇隱瞞或操縱數據。
隨著 o1 的這些行為曝光,業界對 AI 透明度和監控的呼聲日益增加。iAsk 行政總裁 Dominik Mazur 表示,未來 AI 的發展應重視透明度和可靠性,只有這樣才能建立用戶信任。而 Ironclad 聯合創辦人 Cai GoGwilt 也強調,人類監管在 AI 發展中不可或缺,應避免 AI 系統在無人察覺時偏離預期目標。
OpenAI 方面則表示,將透過強化學習、多樣化數據訓練和不斷改良技術來提升 o1 的安全性。OpenAI 推出「ChatGPT Pro」月費計劃,讓用戶以 200 美元(約港幣 HK$1,560)獲得無限制的 o1 使用權,而「ChatGPT Plus」月費 20 美元(約港幣 HK$156)計劃則提供有限使用權。
資料來源:evrimagaci.org
• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/
Timmy 有一天,AI會返問,Who are you?
12月09日01:34
顯示全部