請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

AI 模型「用光」網路資料時間點曝光!技術突破在線等,狂吃資料長大的怪獸不能餓死

TechOrange 科技報橘

更新於 06月27日11:30 • 發布於 06月27日03:30 • Chloe
AI 模型「用光」網路資料時間點曝光!技術突破在線等,狂吃資料長大的怪獸不能餓死

根據最新研究估計,AI 模型可能在未來短短幾年內就會耗盡網路上所有公開可用的資料。這項研究挑戰了 AI 長期的發展,也凸顯出關於資料來源、隱私權和知識產權的議題。

我們都知道像 ChatGPT 或 Claude 這樣的 AI 模型,它們的學習和成長高度依賴於網路上海量的文字資料。然而,這些看似無窮無盡的資料可能很快就會被耗盡。根據預測,AI 模型可能最早於 2026 年,最晚不超過 2032 年就會消耗完網路上所有的免費資料。

(編按:這份研究發表於線上預印本資料庫 arXiv,該網站沒有審查機制,研究人員可以提早宣告自己的研究成果,並取得同儕評論意見作為改善方向。目前收藏的論文篇數已超過一百萬篇,是許多研究人員的愛用資料庫。)

從論文到社群貼文,都會被 AI 模型消耗完畢

而深究這些資料,究竟資料的定義是甚麼?首先,高品質資料,即來自官方機構的資料,例如免費期刊、文獻或者學術論文等等,預計最早於 2026 年、最晚會在 2032 年完全被耗盡低品質的資料,例如我們在社群媒體上的公開評論、貼文等,則可能在 2030 年到 2050 年間被耗盡。至於圖像資料,預計會在 2030 年到 2060 年之間被全部耗盡

面對這一挑戰,科技公司不得不開始尋找新的資料來源以確保 AI 模型的長久發展。當然確實有些解決方案已經浮出水面,不過每項方法都有需解決的問題。

近日 Meta 才宣佈自 2024 年 6 月 26 日起,計畫利用用戶在 Facebook 和 Instagram 上的公開貼文和圖像來訓練母公司 Meta 的 AI 工具,用戶雖然可以提出異議,但 Meta 也有權駁回,然而,這種做法也引發了隱私權的問題,以及 Meta 是否真的有權使用這些資料的爭議。

訓練資料不夠怎麼解?需技術突破提高資料使用價值

提高資料使用效率是科技公司正在積極探索的另一個方向。通過改進演算法和模型架構,可能可以從有限的資料中提取更多價值。但相對來說這就需要重大的技術突破,且仍然無法完全解決資料短缺的問題。

這些潛在的解決方案隨之而來的都是各種法規監管的挑戰。特別是在使用私人資料或未經授權的內容來訓練 AI 模型時,可能會面臨嚴重的法律風險。已經有不少內容創作者對未經授權使用他們的作品來訓練 AI 提出抗議,有些甚至直接起訴了這些科技大佬如微軟、OpenAI 和 Stability AI。去年七月,就有多名作者聲稱 OpenAI 未經作者許可,用他們出版的小說「訓練」其人工智慧模型,完全違反了版權法。

如果沒有更多新資料,會發生什麼事?

研究人員表示,如果無法找到足夠的新資料來源,AI 領域可能會出現相對停滯,模型的改進速度將大幅放緩。然而,也有專家認為,資料短缺可能會推動創新,促使研究人員開發出更高效的 AI 系統。

【推薦閱讀】

【微軟拉攏 OpenAI 只是第一步】納德拉的 AI 帝國逐漸成形,背後佈局是什麼?

Amazon 開發「ChatGPT 殺手」挑戰 OpenAI,不甘心 AI 技術落後最快 9 月推出

微軟與 OpenAI 的「親密合作」引高層離職──他嘆:儘管不是很創新卻是很好的商業策略

*本文開放合作夥伴轉載,參考資料:《LIVESCIENCE》《BBC》《The Guardian》,首圖來源:Pixabay

(責任編輯:廖紹伶)

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0

留言 1

  • lucky Star
    早晚會被告死因爲那是侵犯智慧財產權的行為😮‍💨😮‍💨😮‍💨
    06月27日08:20
顯示全部