隨著 AI 生成的內容鋪天蓋地的出現在網路上,未來人工智慧模型的訓練數據也正在被這些內容腐蝕。一旦出現被汙染的數據,未來的 AI 模型就無法準確精準地學習以及模擬人類的各種行為。
且即使是少量的 AI 生成內容,最終也會將錯誤內容擴散至正在訓練的模型,再隨著每一代模型的迭代,這些錯誤會逐漸累積,導致所謂的「模型崩潰」(model collapse)。例如,經過多次迭代後的模型可能會失去對文字或圖像的準確理解,甚至生成出完全無關的內容。
「模型崩潰」將導致訓練模型性能大幅下降
不過這種現象並非無迹可循,牛津大學的機器學習團隊觀察到,即使是最簡單的模型也已經出現了這種「模型崩潰」的跡象。他們的研究表示,隨著 AI 模型越來越依賴於自身生成的數據進行訓練,錯誤的累積將導致模型的性能大幅下降。
主因是其模型的訓練是廣泛採用「合成數據」,也就是由其他 AI 生成的數據,而非採用更獨特、更精準的人工數據內容。即使讓 AI 在最佳的學習條件下,模型崩潰也是不可避免的。
且研究還透露,這種由 AI 生成的有毒數據不限於文字。牛津大學團隊也在一種 AI 圖像生成器上發現,即使是圖像數據也會隨著模型的迭代而逐漸失去清晰度和識別度。這意味著,不論是文字還是圖像,AI 生成的數據都可能對未來任何模型的訓練造成不利影響。
學界一直在找解方──由人類打造標準化數據庫
其實數據濫用與模型崩潰的現象,在 ChatGPT 等 AI 技術變得主流前就一直在發生,學界也一直在尋找解決方案,目前較可能被實現的應用即是創建由人類規劃的標準化數據庫,以確保訓練數據的正確性。不過它還不是最佳解,主要是它沒有辦法徹底避免 AI 受到數據的影響,甚至還可能限制模型學習的多樣性。
除此之外,隨著 AI 技術的不斷發展,區分人類生成的數據和 AI 生成內容也變得越來越困難。例如,在 Adobe Photoshop 使用 AI 工具進行圖像編輯在現今已經很普遍,但我們根本難以區分這張圖到底是完全由人類所創作的還是由 AI 生成或只是經過 AI 修改。
為了確保 AI 技術能夠健康、永不間斷地發展,科研界早已開始采取積極的對策來應對這些挑戰,這也將是 AI 領域中所有研究者和開發者必須一起解決的共同任務。
【推薦閱讀】
◆ 歐盟通過全球首部人工智慧監管法案,前 NCC 主委詹婷怡:有規範才有 AI 產業發展
*本文開放夥伴轉載,參考資料:《SCI AM》、《The Atlantic》、《The Conversation》、OpenAI,首圖來源:OpenAI。
(責任編輯:廖紹伶)
留言 4
大鯰魚
到時候AI 以為任何人
都能像 瑜珈動作 一樣,
會把人類折死的。
05月24日03:20
harpoon
資料餵到崩潰
05月24日01:52
筱原里森
如同近親繁殖
05月23日23:48
張阿忠
BI
05月23日15:57
顯示全部