AI 被汙染恐走向自我毀滅？研究揭「模型崩潰」不可避免，給你的答案會是胡說八道

隨著 AI 生成的內容鋪天蓋地的出現在網路上，未來人工智慧模型的訓練數據也正在被這些內容腐蝕。一旦出現被汙染的數據，未來的 AI 模型就無法準確精準地學習以及模擬人類的各種行為。

且即使是少量的 AI 生成內容，最終也會將錯誤內容擴散至正在訓練的模型，再隨著每一代模型的迭代，這些錯誤會逐漸累積，導致所謂的「模型崩潰」（model collapse）。例如，經過多次迭代後的模型可能會失去對文字或圖像的準確理解，甚至生成出完全無關的內容。

「模型崩潰」將導致訓練模型性能大幅下降

不過這種現象並非無迹可循，牛津大學的機器學習團隊觀察到，即使是最簡單的模型也已經出現了這種「模型崩潰」的跡象。他們的研究表示，隨著 AI 模型越來越依賴於自身生成的數據進行訓練，錯誤的累積將導致模型的性能大幅下降。

主因是其模型的訓練是廣泛採用「合成數據」，也就是由其他 AI 生成的數據，而非採用更獨特、更精準的人工數據內容。即使讓 AI 在最佳的學習條件下，模型崩潰也是不可避免的。

且研究還透露，這種由 AI 生成的有毒數據不限於文字。牛津大學團隊也在一種 AI 圖像生成器上發現，即使是圖像數據也會隨著模型的迭代而逐漸失去清晰度和識別度。這意味著，不論是文字還是圖像，AI 生成的數據都可能對未來任何模型的訓練造成不利影響。

學界一直在找解方──由人類打造標準化數據庫

其實數據濫用與模型崩潰的現象，在 ChatGPT 等 AI 技術變得主流前就一直在發生，學界也一直在尋找解決方案，目前較可能被實現的應用即是創建由人類規劃的標準化數據庫，以確保訓練數據的正確性。不過它還不是最佳解，主要是它沒有辦法徹底避免 AI 受到數據的影響，甚至還可能限制模型學習的多樣性。

除此之外，隨著 AI 技術的不斷發展，區分人類生成的數據和 AI 生成內容也變得越來越困難。例如，在 Adobe Photoshop 使用 AI 工具進行圖像編輯在現今已經很普遍，但我們根本難以區分這張圖到底是完全由人類所創作的還是由 AI 生成或只是經過 AI 修改。

為了確保 AI 技術能夠健康、永不間斷地發展，科研界早已開始采取積極的對策來應對這些挑戰，這也將是 AI 領域中所有研究者和開發者必須一起解決的共同任務。

【推薦閱讀】
◆ 歐盟通過全球首部人工智慧監管法案，前 NCC 主委詹婷怡：有規範才有 AI 產業發展
◆ AI 重新定義企業流程！SAP：2024 年 AI 應用場景將新增超過 100 個
◆ 【AI 研究員異想天開】把類 GoPro 綁嬰兒頭上！為何要 AI 牙牙學語不跟科技巨頭作法走？

＊本文開放夥伴轉載，參考資料：《SCI AM》、《The Atlantic》、《The Conversation》、OpenAI，首圖來源：OpenAI。

（責任編輯：廖紹伶）

透過 Amazon Bedrock，發掘 Claude 3 系列模型的無窮潛能

【立即試用 Claude 3 系列模型，24 小時內免費體驗！】

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

科技

TechOrange 科技報橘

「模型崩潰」將導致訓練模型性能大幅下降

學界一直在找解方──由人類打造標準化數據庫

透過 Amazon Bedrock，發掘 Claude 3 系列模型的無窮潛能

【立即試用 Claude 3 系列模型，24 小時內免費體驗！】

留言 4