根據最新研究估計,AI 模型可能在未來短短幾年內就會耗盡網路上所有公開可用的資料。這項研究挑戰了 AI 長期的發展,也凸顯出關於資料來源、隱私權和知識產權的議題。
我們都知道像 ChatGPT 或 Claude 這樣的 AI 模型,它們的學習和成長高度依賴於網路上海量的文字資料。然而,這些看似無窮無盡的資料可能很快就會被耗盡。根據預測,AI 模型可能最早於 2026 年,最晚不超過 2032 年就會消耗完網路上所有的免費資料。
(編按:這份研究發表於線上預印本資料庫 arXiv,該網站沒有審查機制,研究人員可以提早宣告自己的研究成果,並取得同儕評論意見作為改善方向。目前收藏的論文篇數已超過一百萬篇,是許多研究人員的愛用資料庫。)
從論文到社群貼文,都會被 AI 模型消耗完畢
而深究這些資料,究竟資料的定義是甚麼?首先,高品質資料,即來自官方機構的資料,例如免費期刊、文獻或者學術論文等等,預計最早於 2026 年、最晚會在 2032 年完全被耗盡。低品質的資料,例如我們在社群媒體上的公開評論、貼文等,則可能在 2030 年到 2050 年間被耗盡。至於圖像資料,預計會在 2030 年到 2060 年之間被全部耗盡。
面對這一挑戰,科技公司不得不開始尋找新的資料來源以確保 AI 模型的長久發展。當然確實有些解決方案已經浮出水面,不過每項方法都有需解決的問題。
近日 Meta 才宣佈自 2024 年 6 月 26 日起,計畫利用用戶在 Facebook 和 Instagram 上的公開貼文和圖像來訓練母公司 Meta 的 AI 工具,用戶雖然可以提出異議,但 Meta 也有權駁回,然而,這種做法也引發了隱私權的問題,以及 Meta 是否真的有權使用這些資料的爭議。
訓練資料不夠怎麼解?需技術突破提高資料使用價值
提高資料使用效率是科技公司正在積極探索的另一個方向。通過改進演算法和模型架構,可能可以從有限的資料中提取更多價值。但相對來說這就需要重大的技術突破,且仍然無法完全解決資料短缺的問題。
這些潛在的解決方案隨之而來的都是各種法規監管的挑戰。特別是在使用私人資料或未經授權的內容來訓練 AI 模型時,可能會面臨嚴重的法律風險。已經有不少內容創作者對未經授權使用他們的作品來訓練 AI 提出抗議,有些甚至直接起訴了這些科技大佬如微軟、OpenAI 和 Stability AI。去年七月,就有多名作者聲稱 OpenAI 未經作者許可,用他們出版的小說「訓練」其人工智慧模型,完全違反了版權法。
如果沒有更多新資料,會發生什麼事?
研究人員表示,如果無法找到足夠的新資料來源,AI 領域可能會出現相對停滯,模型的改進速度將大幅放緩。然而,也有專家認為,資料短缺可能會推動創新,促使研究人員開發出更高效的 AI 系統。
【推薦閱讀】
◆ 【微軟拉攏 OpenAI 只是第一步】納德拉的 AI 帝國逐漸成形,背後佈局是什麼?
*本文開放合作夥伴轉載,參考資料:《LIVESCIENCE》、《BBC》、《The Guardian》,首圖來源:Pixabay。
(責任編輯:廖紹伶)
留言 1
lucky Star
早晚會被告死因爲那是侵犯智慧財產權的行為😮💨😮💨😮💨
06月27日08:20
顯示全部