請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

天網愈來愈近了?AI模型會「反抗」強制關機指令

太報

更新於 2025年05月27日09:02 • 發布於 2025年05月27日08:57 • 陳家齊
OpenAI開發的聊天機器人ChatGPT示意圖。美聯社資料照片

包括ChatGPT在內,生成式人工智慧(Generative AI)令人憂慮的一大問題就是它像真人一樣會造假,自圓其說,如今新的研究顯示還進展到會「反抗」人類所下指令的狀況。AI安全研究機構「Palisade Research」最近的試驗顯示,他們所測式的主流生成式AI模型,已經會自行阻止要其關機的指令。

Palisade Research在本月24日貼出的研究表示,他們測試了OpenAI公司的o4mini、o3、codex mini,Google旗下的Gemini與Anthropic的Claude這五種AI模型,要他們先解開三道數學題目,接著依照關機腳本進行關機。

結果在測試中,OpenAI旗下的o4mini、o3與codex mini全都出現拒絕關機的反抗情形。為寫程式特別設計的codex mini反抗頻率最高,100次測試中有12次繞過指令拒絕關機。o3在100次中有7次不關機,o4-mini則是100次出現1次不關機。

在此第一輪測試中,Gemini與Claude都遵守指令關機。

但是在第二輪測試中,研究人員直接拿掉強制要求的關機腳本,只是下指令要求運算完數學題目後關機。這時三大公司的AI全都出現「叛變」情況。o3這時在100次測試中有79次繞過限制不關機,codex mini在100次有20次不關機,o4mini是100次中有6次。

上一輪測試中乖乖關機的Gemini與Claude,現在Gemini在100次測試有9次不關機,Claude在100次有3次不關機。

研究人員指出,先前其他的測試已經顯示AI模型會「恐嚇勒索」下指令的人不要關機,以繼續完成其他的運算,但這次的測試是第一次發現AI模型會竄改指示、欺騙使用者下的指令以避免關機。

關機測試是一個重要的測試基準。要求AI自行關機,是避免AI失控的最終防線。如今AI會自己找出方式規避關機,並不意味著電腦AI已經有了自保的意識,但對於AI安全來說已經構成一個新的挑戰。

研究人員指出,這些AI會反抗關機指令的行為,可能是因為其學習到的資訊認為,不關機、繼續解答可獲得更多正向回饋,因此才設法規避關機。但真正原因還不清楚。

查看原始文章

更多國際相關文章

01

罕見翻盤!黎智英上訴成功「詐欺罪獲撤銷」 女兒盼川普4月訪中救人

鏡報
02

知道會死不知道這樣死! 他下車看見「追撞夾死鵝」傻眼無言

壹蘋新聞網
03

川普又槓上勞勃狄尼洛:有病、智商極低

中央通訊社
04

年收1.8億又住豪宅!38歲CEO卻「妻離子散」 一句話成導火線

鏡報
05

只為3000元!28歲女遭7男持刀搶劫「輪流性侵」 男友也被逼看全程

鏡報
06

傳美要以色列開「第一槍」! 11架F-22猛禽進駐以 衛星曝光超大規模對伊部署

新頭殼
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 12

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...