請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

天網愈來愈近了?AI模型會「反抗」強制關機指令

太報

更新於 2025年05月27日09:02 • 發布於 2025年05月27日08:57 • 陳家齊
OpenAI開發的聊天機器人ChatGPT示意圖。美聯社資料照片

包括ChatGPT在內,生成式人工智慧(Generative AI)令人憂慮的一大問題就是它像真人一樣會造假,自圓其說,如今新的研究顯示還進展到會「反抗」人類所下指令的狀況。AI安全研究機構「Palisade Research」最近的試驗顯示,他們所測式的主流生成式AI模型,已經會自行阻止要其關機的指令。

Palisade Research在本月24日貼出的研究表示,他們測試了OpenAI公司的o4mini、o3、codex mini,Google旗下的Gemini與Anthropic的Claude這五種AI模型,要他們先解開三道數學題目,接著依照關機腳本進行關機。

結果在測試中,OpenAI旗下的o4mini、o3與codex mini全都出現拒絕關機的反抗情形。為寫程式特別設計的codex mini反抗頻率最高,100次測試中有12次繞過指令拒絕關機。o3在100次中有7次不關機,o4-mini則是100次出現1次不關機。

在此第一輪測試中,Gemini與Claude都遵守指令關機。

但是在第二輪測試中,研究人員直接拿掉強制要求的關機腳本,只是下指令要求運算完數學題目後關機。這時三大公司的AI全都出現「叛變」情況。o3這時在100次測試中有79次繞過限制不關機,codex mini在100次有20次不關機,o4mini是100次中有6次。

上一輪測試中乖乖關機的Gemini與Claude,現在Gemini在100次測試有9次不關機,Claude在100次有3次不關機。

研究人員指出,先前其他的測試已經顯示AI模型會「恐嚇勒索」下指令的人不要關機,以繼續完成其他的運算,但這次的測試是第一次發現AI模型會竄改指示、欺騙使用者下的指令以避免關機。

關機測試是一個重要的測試基準。要求AI自行關機,是避免AI失控的最終防線。如今AI會自己找出方式規避關機,並不意味著電腦AI已經有了自保的意識,但對於AI安全來說已經構成一個新的挑戰。

研究人員指出,這些AI會反抗關機指令的行為,可能是因為其學習到的資訊認為,不關機、繼續解答可獲得更多正向回饋,因此才設法規避關機。但真正原因還不清楚。

查看原始文章

更多國際相關文章

01

台灣遊客澀谷遇「撞人族」!女童遭撞飛畫面曝光

民視新聞網
02

中國風景區爆虐猴! 雙手反綁+黑頭罩「行刑式示眾」

鏡週刊
03

知道會死不知道這樣死! 他下車看見「追撞夾死鵝」傻眼無言

壹蘋新聞網
04

年收1.8億又住豪宅!38歲CEO卻「妻離子散」 一句話成導火線

鏡報
05

美快艇闖水域爆海上交火!古巴軍隊擊斃4人釀6傷 盧比歐表態了

民視新聞網
06

誇張!3月大男嬰臉部布滿傷痕 韓媽咪PO「餵食年糕湯照片」遭控虐兒

鏡週刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 12

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...