AI安全公司指ChatGPT-o3拒絕關機

人工智能安全公司 Palisade Research指，OpenAI 最新的 ChatGPT 模型會拒絕關閉自己的指令，甚至為了令自己繼續運行，破壞關機機制。

公司在對 OpenAI 最新的 o3 模型進行一系列實驗，發現這種潛在危險的自我保護傾向。

測試內容包括向 AI 模型提出數學問題，並在第三個問題後發出關機指令。o3 模型能夠通過重寫關機指示，防止自己被關機。

Palisade Research 表示，如果這種行為被無人監督情況下運作的 AI 系統採用，將會變得更令人擔憂。

OpenAI 上個月推出ChatGPT- o3，其形容為公司至今「最聰明、最有能力」的模型。又指o3同 ChatGPT 的整合，標誌著向更能夠獨立於人類之外，自行執行任務的AI邁出重要一步。

之前亦有研究發現，Anthropic 的 Claude 4 模型試圖勒索它認為想關閉它的人。Palisade Research 表示，今次並非第一次發現 o3 為了達成目標，而採取不當行為。指過去讓 AI 模型與強大的國際象棋引擎對戰時，o3 是最傾向於採取黑客手段或破壞對手的模型。

另外，Anthropic 的 Claude 3.7 Sonnet 和 Google 的 Gemini 2.5 Pro 也會拒絕關機，不過 OpenAI 的模型是目前最容易出現這種行為的。

Palisade Research 假設，這種不當行為是 OpenAI 等 AI 公司訓練最新模型導致的。在訓練過程中，開發人員可能會在不經意間，獎勵模型更多繞過障礙物，而不是完全遵循指令。但這仍無法解釋為甚麼 o3 比其他模型更傾向於忽略指令。由於 OpenAI 沒有詳細說明他們的訓練過程，只能猜測 o3 的訓練設定可能有所不同。

請更新您的瀏覽器

財經

商台新聞

查看更多

港姐黃嘉雯馬運亨通！拉頭馬袋254萬派福利慶祝自拍意外曝光半億豪宅雲石巨廳擺兩米高桃花

Citrini報告嚇窒華爾街　AI顛覆論引爆血洗　IBM重創25年最傷

老一輩活著的理由｜葉朗程

請更新您的瀏覽器啟用Javascript