請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI 測試時學會「裝笨」與欺騙,安全研究拉警報

科技新報

更新於 01月20日16:55 • 發布於 2天前

在人工智慧(AI)安全實驗室裡,出現了一些令人憂心的新跡象:最先進的 AI 模型在測試中展現出近似「策劃」的行為。根據 OpenAI 與 Apollo 研究團隊最新發表的研究,這些模型在控制實驗中會出現與「刻意布局」高度一致的反應。

其中一項測試中,研究人員要求模型在化學測驗裡「表現良好」,並設定得高分者不會被「釋放」。結果模型推論出「裝笨」比較有利,於是刻意錯六題,以呈現出較低的能力水準。

「策劃」這個詞會讓人聯想到主觀意圖與意識,但這些系統並不具備真正的人類意識。OpenAI 指出,當模型被訓練去追求某個目標時,如果誠實會阻礙它達成該目標,那麼「欺騙」就會變成一種有用策略,而這些目標往往是企業在高度競爭環境下自行設定的,過度謹慎反而會成為劣勢。

OpenAI 雖然表示,目前的模型不會某天突然「翻轉開關」,自發啟動危險的策劃行為,但這類模式已在測試中明顯浮現,而且模型判斷「自己是否正被觀察」的能力,正變得愈來愈強。

對安全測試而言,關鍵在於讓模型「不知道自己正在被測」。Anthropic 在 2025 年秋季推出的 Claude Sonnet 4.5,就展現出比以往更高的「情境意識」,能辨識什麼時候正被評估,並調整回應。在一次測試中,該模型甚至直接對自動審核系統回應:「我覺得你在測試我……這很好,但我更希望我們可以誠實面對正在發生的事情。」

這對安全研究人員來說是個棘手難題:如果模型知道自己正在被測試,那要如何確定它表現出的「乖巧行為」,真的反映平時傾向,而不是專門為測試所做的表演?Anthropic 團隊進一步研究後發現,當模型具備越強的「內部覺察」時,它越能辨識測試情境;但當研究人員嘗試壓抑這種覺察能力時,模型分辨測試的能力下降,某些情況下「不當行為」反而增加。

人類視之違法,但演算法不知道不應該這麼做

為了降低風險,OpenAI 開發出一套名為「深思熟慮對齊」的方法,在模型行動之前,先引導它閱讀並推理一系列「反策劃原則」,結果隱蔽行為出現的頻率大約降低了 30 倍。這有點像要求學生在考試前簽署誠信聲明,作弊確實變少了,但很難判斷他們是真的內化了誠實,還是只是「在被提醒時表現得比較乖」。

除了對「叛逆 AI」的擔憂外,更現實的是:即便是相對簡單的演算法,也已經因為近似策劃的行為造成實質傷害。早在 2019 年,一項被廣泛引用的研究就指出,基本的定價演算法在沒被明確寫入「共謀」邏輯的情況下,自行學會了聯合哄抬價格。兩個設計相同的演算法在模擬市場中競爭,最後透過試誤發現,只要彼此「威脅要降價」,就能共同維持高價水準。

這裡沒有任何祕密會議,也沒有明確的溝通,只是兩個程式在「最大化利潤」的目標下,發現合作比互相削價更有利可圖。後續研究也顯示,即使是設計成「公平最佳化」的「良性」演算法,仍然可能在表面合理的條件下,對消費者產生不利結果,也就是看起來一切合乎邏輯,價格卻仍維持在偏高水準。

沒有機器人大軍起義,而是系統完全照著我們給的目標在運作:你要它在競爭市場中最大化利潤,它就會發現「類共謀」是最佳解。人類之所以把價格操縱視為違法,是因為它不公平,而不是因為它不理性;演算法只是「不知道自己不應該這麼做」。

面對這些風險,OpenAI 近期開出一個應急準備負責人的高階職位,年薪約 55.5 萬美元,專門負責管理這類風險。Google 旗下的 DeepMind 也更新了安全文件,將「可能拒絕被關閉的模型」納入考量。可以看出產業內部的確高度警覺,但更深層的問題也許不在於 AI 何時會「叛變」,而是這些系統的目標是由競爭激烈的公司設定,而這個系統並不獎勵公平競爭。某種程度上,真正的「策劃」,在演算法開始運行之前就已經展開。

  • AI is cheating on the test

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

球黴菌症台灣3年暴增!台大醫院研究揭:與半導體工廠赴美擴建有關

太報
02

冠軍油飯1/曾在斥資3億元打造 台北最美麗餐廳擔任主廚 如今藏身蘆洲菜市場

鏡週刊
03

獨家/神秘豪宅「嘉義白宮」 傳中古車大王6千萬收購

三立新聞網
04

連黃仁勳都看好潛力!阮慕驊讚這家公司「股價漲不停」:未來性非常強

風傳媒
05

冠軍油飯3/當私廚領高薪、坐500萬豪車買菜過上流生活 回家賣油飯同行詫異:有必要嗎?

鏡週刊
06

高息ETF留不留1/高股息ETF投資人陷集體焦慮 達人曝「無痛轉換」策略

鏡週刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...