請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

AI 被汙染恐走向自我毀滅?研究揭「模型崩潰」不可避免,給你的答案會是胡說八道

TechOrange 科技報橘

更新於 05月23日15:43 • 發布於 05月23日03:50 • Chloe
AI 被汙染恐走向自我毀滅?研究揭「模型崩潰」不可避免,給你的答案會是胡說八道

隨著 AI 生成的內容鋪天蓋地的出現在網路上,未來人工智慧模型的訓練數據也正在被這些內容腐蝕。一旦出現被汙染的數據,未來的 AI 模型就無法準確精準地學習以及模擬人類的各種行為。

即使是少量的 AI 生成內容,最終也會將錯誤內容擴散至正在訓練的模型,再隨著每一代模型的迭代,這些錯誤會逐漸累積,導致所謂的「模型崩潰」(model collapse)。例如,經過多次迭代後的模型可能會失去對文字或圖像的準確理解,甚至生成出完全無關的內容。

「模型崩潰」將導致訓練模型性能大幅下降

不過這種現象並非無迹可循,牛津大學的機器學習團隊觀察到,即使是最簡單的模型也已經出現了這種「模型崩潰」的跡象。他們的研究表示,隨著 AI 模型越來越依賴於自身生成的數據進行訓練,錯誤的累積將導致模型的性能大幅下降

主因是其模型的訓練是廣泛採用「合成數據」,也就是由其他 AI 生成的數據,而非採用更獨特、更精準的人工數據內容。即使讓 AI 在最佳的學習條件下,模型崩潰也是不可避免的。

且研究還透露,這種由 AI 生成的有毒數據不限於文字。牛津大學團隊也在一種 AI 圖像生成器上發現,即使是圖像數據也會隨著模型的迭代而逐漸失去清晰度和識別度。這意味著,不論是文字還是圖像,AI 生成的數據都可能對未來任何模型的訓練造成不利影響。

學界一直在找解方──由人類打造標準化數據庫

其實數據濫用與模型崩潰的現象,在 ChatGPT 等 AI 技術變得主流前就一直在發生,學界也一直在尋找解決方案,目前較可能被實現的應用即是創建由人類規劃的標準化數據庫,以確保訓練數據的正確性。不過它還不是最佳解,主要是它沒有辦法徹底避免 AI 受到數據的影響,甚至還可能限制模型學習的多樣性。

除此之外,隨著 AI 技術的不斷發展,區分人類生成的數據和 AI 生成內容也變得越來越困難。例如,在 Adobe Photoshop 使用 AI 工具進行圖像編輯在現今已經很普遍,但我們根本難以區分這張圖到底是完全由人類所創作的還是由 AI 生成或只是經過 AI 修改。

為了確保 AI 技術能夠健康、永不間斷地發展,科研界早已開始采取積極的對策來應對這些挑戰,這也將是 AI 領域中所有研究者和開發者必須一起解決的共同任務。

【推薦閱讀】

歐盟通過全球首部人工智慧監管法案,前 NCC 主委詹婷怡:有規範才有 AI 產業發展

AI 重新定義企業流程!SAP:2024 年 AI 應用場景將新增超過 100 個

【AI 研究員異想天開】把類 GoPro 綁嬰兒頭上!為何要 AI 牙牙學語不跟科技巨頭作法走?

*本文開放夥伴轉載,參考資料:《SCI AM》《The Atlantic》《The Conversation》OpenAI,首圖來源:OpenAI

(責任編輯:廖紹伶)

透過 Amazon Bedrock,發掘 Claude 3 系列模型的無窮潛能

【立即試用 Claude 3 系列模型,24 小時內免費體驗!】

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0

留言 4

  • 大鯰魚
    到時候AI 以為任何人 都能像 瑜珈動作 一樣, 會把人類折死的。
    05月24日03:20
  • harpoon
    資料餵到崩潰
    05月24日01:52
  • 筱原里森
    如同近親繁殖
    05月23日23:48
  • 張阿忠
    BI
    05月23日15:57
顯示全部