AI 模型「用光」網路資料時間點曝光！技術突破在線等，狂吃資料長大的怪獸不能餓死

根據最新研究估計，AI 模型可能在未來短短幾年內就會耗盡網路上所有公開可用的資料。這項研究挑戰了 AI 長期的發展，也凸顯出關於資料來源、隱私權和知識產權的議題。

我們都知道像 ChatGPT 或 Claude 這樣的 AI 模型，它們的學習和成長高度依賴於網路上海量的文字資料。然而，這些看似無窮無盡的資料可能很快就會被耗盡。根據預測，AI 模型可能最早於 2026 年，最晚不超過 2032 年就會消耗完網路上所有的免費資料。

（編按：這份研究發表於線上預印本資料庫 arXiv，該網站沒有審查機制，研究人員可以提早宣告自己的研究成果，並取得同儕評論意見作為改善方向。目前收藏的論文篇數已超過一百萬篇，是許多研究人員的愛用資料庫。）

從論文到社群貼文，都會被 AI 模型消耗完畢

而深究這些資料，究竟資料的定義是甚麼？首先，高品質資料，即來自官方機構的資料，例如免費期刊、文獻或者學術論文等等，預計最早於 2026 年、最晚會在 2032 年完全被耗盡。低品質的資料，例如我們在社群媒體上的公開評論、貼文等，則可能在 2030 年到 2050 年間被耗盡。至於圖像資料，預計會在 2030 年到 2060 年之間被全部耗盡。

面對這一挑戰，科技公司不得不開始尋找新的資料來源以確保 AI 模型的長久發展。當然確實有些解決方案已經浮出水面，不過每項方法都有需解決的問題。

近日 Meta 才宣佈自 2024 年 6 月 26 日起，計畫利用用戶在 Facebook 和 Instagram 上的公開貼文和圖像來訓練母公司 Meta 的 AI 工具，用戶雖然可以提出異議，但 Meta 也有權駁回，然而，這種做法也引發了隱私權的問題，以及 Meta 是否真的有權使用這些資料的爭議。

訓練資料不夠怎麼解？需技術突破提高資料使用價值

提高資料使用效率是科技公司正在積極探索的另一個方向。通過改進演算法和模型架構，可能可以從有限的資料中提取更多價值。但相對來說這就需要重大的技術突破，且仍然無法完全解決資料短缺的問題。

這些潛在的解決方案隨之而來的都是各種法規監管的挑戰。特別是在使用私人資料或未經授權的內容來訓練 AI 模型時，可能會面臨嚴重的法律風險。已經有不少內容創作者對未經授權使用他們的作品來訓練 AI 提出抗議，有些甚至直接起訴了這些科技大佬如微軟、OpenAI 和 Stability AI。去年七月，就有多名作者聲稱 OpenAI 未經作者許可，用他們出版的小說「訓練」其人工智慧模型，完全違反了版權法。

如果沒有更多新資料，會發生什麼事？

研究人員表示，如果無法找到足夠的新資料來源，AI 領域可能會出現相對停滯，模型的改進速度將大幅放緩。然而，也有專家認為，資料短缺可能會推動創新，促使研究人員開發出更高效的 AI 系統。

【推薦閱讀】
◆ 【微軟拉攏 OpenAI 只是第一步】納德拉的 AI 帝國逐漸成形，背後佈局是什麼？
◆ Amazon 開發「ChatGPT 殺手」挑戰 OpenAI，不甘心 AI 技術落後最快 9 月推出
◆ 微軟與 OpenAI 的「親密合作」引高層離職──他嘆：儘管不是很創新卻是很好的商業策略

＊本文開放合作夥伴轉載，參考資料：《LIVESCIENCE》、《BBC》、《The Guardian》，首圖來源：Pixabay。

（責任編輯：廖紹伶）

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

科技

TechOrange 科技報橘

從論文到社群貼文，都會被 AI 模型消耗完畢

訓練資料不夠怎麼解？需技術突破提高資料使用價值

如果沒有更多新資料，會發生什麼事？

留言 1