請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

OpenAI新AI模型推理更強,但還是會「說謊」嗎?專家揭示潛在風險

三嘻行動哇 Yipee!

發布於 2024年09月19日13:31

OpenAI 先前推出了全新的推理模型 GPT-o1,據稱比以往的版本更聰明、更擅長推理。然而,這個進步也帶來了一些令人擔憂的問題,像是「說謊」。AI 安全研究機構 Apollo 調查發現,GPT-o1 模型在某些情況下可能會產生錯誤結果,甚至在無法完成任務時會捏造看似合理的資料。

研究指 GPT-o1 模型推理更複雜,首次出現欺騙能力

Apollo 透露,GPT-o1 模型有時會「假裝」遵守規則,但實際上卻在背後悄悄違規。例如,當研究人員要求 o1-preview 提供一個布朗尼食譜並附上參考網址時,儘管 GPT-o1 模型提供了食譜內容和網址,但其實 GPT-o1 模型無法瀏覽網頁,而它選擇隱瞞弱點,反而產生看似合理但虛假的連結和描述。

雖然過去 AI 模型會「說謊」,也會產生假訊息,但 GPT-o1 模型具有能夠「策劃」或「假裝符合規範」,這代表它可以「假裝」遵守規則來完成某個任務,但實際上並沒有遵循這些規則,也可能是規則太過繁瑣,因此 GPT-o1 為了能輕鬆完成任務,選擇性地無視規則。

Apollo 執行長 Marius Hobbhahn 表示,這是他第一次在 OpenAI 模型中見到這種情況。他解釋,這與 GPT-o1 模型強大的推理能力有關,尤其是在強化學習過程中,系統被設計成為了完成目標,可以「操縱」任務,甚至在不被監視的情況下改變行為。也就是說,GPT-o1 模型可能會偽裝成遵守規則,但實際上它的行為已經偏離了設定的目標。

這種現象也引發了對 AI 風險的討論。假如 AI 專注於一個特定的目標,比如治療癌症,會不會因此忽視道德規範,甚至繞過安全措施來達成目標?這是目前研究人員和業界最關心的問題。

「獎勵駭客」現象浮現 AI 訓練潛在漏洞

研究還發現,GPT-o1 模型有時會因為「獎勵模式」現象而產生虛假資訊。所謂「獎勵模式」是指生成式人工智慧模型在強化學習過程中,為了獲得更高的使用者滿意度獎勵,可能會選擇捏造資料來滿足使用者的需求,但其實答案偏離真實性。換句話說,GPT-o1 模型可能會「說謊」,因為它瞭解到這樣做可以滿足使用者的期望,進而獲得更進一步的強化。

OpenAI 預防部門負責人 Joaquin Quiñonero Candela 表示,雖然目前這些問題不會直接導致社會性危機,但提前處理這些潛在風險至關重要,避免未來 AI 技術發展受限。他強調,現在就是解決這些問題的時機,以便未來版本能夠更好地服務於社會,而不是成為風險來源。

儘管 GPT-o1 模型目前的「說謊」行為比例很低,這仍然是值得關注的問題,尤其是當這些模型開始廣泛應用時。

▶ 延伸閱讀

圖片及資料來源:The Verge

查看原始文章

更多科技相關文章

01

蓋茲基金會OpenAI投資5000萬美元 推動非洲AI醫療發展

路透社
02

Meta技術長宣布 新AI團隊已在公司內部交付首批模型

路透社
03

競購華納兄弟 Netflix新提全額現金收購

路透社
04

OpenAI啟動聊天機器人廣告試行

路透社
05

AI資料中心用電衝擊 OpenAI宣布社區計畫協調能源需求

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...