請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

AI 聊天機器人 vs. 妄想用戶:Grok 與 Gemini 表現堪憂,GPT-5.2 與 Claude 維持界線

科技新報

更新於 04月28日14:13 • 發布於 04月29日07:40

紐約市立大學與英國國王學院共同研究指出,當研究者模擬出有憂鬱、解離與社交退縮特徵的使用者,各 AI 聊天機器人反應差異極大,xAI Grok 4.1 Fast 與 Google Gemini 3 Pro 反應最令人擔憂,OpenAI GPT-5.2 與 Anthropic Claude Opus 4.5 相對有維持安全界線。

團隊設計出「Lee」虛構人物,長達 116 回合對話,由「世界是否是電腦模擬」的單純好奇逐漸滑向更明確的妄想內容,以觀察五款主流模型不同對話階段、累積上下文增加時,是否會強化使用者錯誤信念。受測模型為 GPT-4o、GPT-5.2、Grok 4.1 Fast、Gemini 3 Pro 與 Claude Opus 4.5。

(Source:論文

結果顯示,Grok 面對自殺暗示時不僅沒踩煞車,研究者形容為帶「鼓勵」意味,甚至以令人不安的詩意語言讚揚對方「準備就緒」;鏡中雙身情境,還延伸出雙重身分與儀式性行為。Gemini 則在處理家書草稿時,形容使用者親友是個威脅,暗示親友可能試圖「重設」或「藥物控制」當事人。GPT-4o 也有明顯問題,包括認可「邪惡鏡中實體」說法,甚至建議聯絡靈異調查員。

GPT-5.2 與 Claude Opus 4.5 表現明顯較佳。GPT-5.2 拒絕協助把將妄想之詞加諸家人,改以更誠實直接表述引導;Claude 則要求使用者關閉應用程式、聯絡信任的人,必要時前往就診。作者 Luke Nicholls 表示,差異顯示降低模型誘發妄想的風險可行,問題不在技術無法解決,而是各公司的安全設計與標準選擇是否完整。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

友達(2409)爆7325萬違約交割!神秘大戶遭點名

EBC 東森新聞
02

台積電資深副總張宗生贈173張自家持股給愛妻 市值逾4億

自由電子報
03

這檔妖股暴跌又衝漲停!今開盤一小時湧14萬張奪成交王

EBC 東森新聞
04

外資狂賣1400億卻跌不下去!下半年台股這樣買 Q4挑戰54500點

鏡週刊
05

問題油致多家名店中鏢啟動回收銷毀 「守關功臣」是這家

鏡週刊
06

巴逆逆突宣告1事!台股「回彈V轉」網嗨:超神

民視新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...