OpenAI 新研究找到 AI 幻覺來源，或能解決這最大問題

最新研究，OpenAI 探討大型語言模型（如 GPT-5）和聊天機器人（如 ChatGPT）為何會出現「幻覺」，並減少幻覺的可行方法。OpenAI 定義，幻覺是指「語言模型產生看似合理但錯誤的陳述」。儘管技術漸漸進步，這問題仍是大型語言模型的最大挑戰，且目前無法解決。

研究員舉例，詢問常用聊天機器人Adam Tauman Kalai博士論文標題時，得到三種錯誤答案。詢問生日，AI又回答三個錯誤日期，讓人對AI聊天機器人為何如此自信講出錯誤答案非常疑惑。

幻覺產生部分源於預訓練過程，模型只關心預測下個單字，沒有附加真實或虛假標籤，模型只能看到流暢字句等正面例子，必須近似整體分佈。研究員表示，拼寫和括號錯誤會隨模型規模擴大消失，因為這類模式有高度一致性，與低頻率隨機知識不同；但隨機低頻率事實（如寵物生日）無法用模式預測，故導致幻覺產生。

然而，研究解決方案並不限初始預訓練，而更關注大型語言模型評估方法。研究員認為，目前評估模型雖然不會直接導致幻覺，卻「設下錯誤獎勵」。他們將評估與隨機猜測的多選測試比較，猜對機會可能讓人認為是運氣好，不回答卻是零分。

研究員建議，模型評估需對錯誤自信表現給予更嚴重懲罰，不確定性較輕懲罰，並對適當表達不確定性給予部分分數。只引入幾個新不確定性意識測試不夠，基於準確性評估需更新，以便計分方式有效抑制模型亂回答。

研究員警告，如果主要計分系統繼續獎勵運氣好的猜對回答，模型就只會學到如何猜題。此研究不僅說明AI幻覺根源，也為將來AI模型評估找尋新方法。OpenAI數據，GPT-5幻覺率比前代GPT-4降低約45%~80%，不僅降低幻覺率，還提升推理力與多模態，能理解並處理圖片與文字混合訊息。

OpenAI執行長Sam Altman稱GPT-5「讓用戶有和博士級專家對話的感覺」，強調智慧層級提升。

（首圖來源：shutterstock）

理財