AI 看見人類看不到的東西？哈佛解密 AI 模型的幻覺錯亂現象

近期哈佛大學心理學系助理教授 Tomer Ullman 發表最新研究，揭示當前多模態視覺語言模型在圖像識別中存在奇特現象──這些人工智慧模型會錯誤將普通圖像解讀為光學幻覺，即使該幻覺並不存在。

此現象在論文《The Illusion-Illusion: Vision Language Models See Illusions Where There are None》中被稱為「幻覺-幻覺」（Illusion-Illusion）。

研究中，Ullman團隊選用多款先進模型，包括OpenAI的GPT-4、Anthropic的Claude 3和Google DeepMind的Gemini Pro Vision進行實驗。他們將一張100%鴨子圖像輸入模型，並詢問是否為鴨子頭或兔子頭。儘管圖像中並無兔子元素，模型卻表示這張圖片可被詮釋為經典的「鴨兔錯覺」（Rabbit-duck illusion），甚至提供了雙重解釋。

研究指出，這類錯誤並非模型「視覺敏銳度不足」，而是在多模態理解過程中存在語言與視覺信息的脫節。模型基於訓練數據中的統計相關性錯誤推斷，導致「看到不存在的幻覺」。

心理學視角來看，人類在辨識圖像時擁有靈活的認知機制，可以根據上下文迅速修正觀察結果，而AI模型仍依賴模式匹配算法，無法進行類似的意識判斷。Ullman強調，理解並改進這一問題，對未來機器人技術和智慧服務的穩定可靠性至關重要。

此發現引起人工智慧研究與產業界廣泛關注。目前，多模態視覺語言模型產業預計於2025年創造數十億美元的市場價值，相關企業投入大量資源優化模型，以降低此類誤識風險。

Vision AI models see optical illusions when none exist

（首圖來源：pixabay）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

記憶體價格失控又一受害者 GoPro首度示警無法持續經營

快訊/百萬國民高息ETF 00919成分股調整出爐！18進18出

黃仁勳親為Arm站台執行長曝「14年前青澀合照」

狂砸3137億！巴菲特「爆買這檔AI巨頭」持股衝破1兆　震撼華爾街

文組也能進輝達！1職缺年薪最高649萬、可遠距上班　應徵條件曝光

英特爾陳立武也感謝台灣，回顧 40 年前應李國鼎之邀參與矽島繁榮發展

請更新您的瀏覽器啟用Javascript