理財

「用公司筆電下載這些資料感覺不太對」Meta 為訓練 AI 下載盜版書規模驚人

TechOrange 科技報橘
更新於 02月13日12:55 • 發布於 02月13日04:48 • LC

Meta(前身為 Facebook)近期捲入一場版權侵權訴訟風波。根據最新解封(在美國法律體系中,某些法庭文件可能會因各種原因被「封存」(sealed),意味著這些文件不對公眾公開)的電子郵件證據顯示,Meta 被指控透過種子下載(torrenting)方式,從多個影子圖書館(shadow libraries)下載了至少 81.7 TB 的資料,其中包括來自 Z-Library 和 LibGen 的 35.7 TB 資料。此外,Meta 先前還曾從 LibGen 下載了 80.6 TB 的資料。

編按:

  • 種子下載(torrenting)是一種點對點(peer-to-peer,簡稱 P2P)的檔案分享方式。
  • 影子圖書館,是將學術文獻和小說開放提供給大眾的線上資料庫,大多都以侵犯著作權的方式提供內容。

訴訟文件指出,Meta 的這些行為涉及到的範圍很大。原告表示,有人盜版少量資料(比如 6.5 GB,大約是 1-2 部高畫質電影的大小),法官就認為嚴重到需要刑事調查,而 Meta 現在被指控下載的資料量(81.7 TB)比這個量大了約 12,500 倍,「小規模盜版都要進行刑事調查了,那 Meta 這麼大規模的行為豈不就更嚴重?」

廣告(請繼續閱讀本文)

員工曾對下載行為表示擔憂、Meta 也刻意隱藏

解封的電子郵件中揭露了 Meta 內部員工對這些下載行為的顧慮。Meta 研究工程師 Nikolay Bashlykov 在 2023 年 4 月的一則訊息中寫道:「用公司筆電下載這些資料感覺不太對」,並表達了對「使用 Meta IP 位址下載盜版內容」的擔憂。到了 2023 年 9 月,Bashlykov 直接向法律團隊諮詢,強調使用這種下載方式可能會有法律問題。

根據訴訟文件,Meta 研究員 Frank Zhang 的內部訊息顯示,公司選擇不使用 Facebook 伺服器進行下載,以避免被追蹤到下載者身份。Meta 專案管理主管 Michael Clark 在證詞中也承認,公司確實修改了設定,試圖刻意避免被系統追蹤。

廣告(請繼續閱讀本文)

AI 的版權問題並非首次發生

值得注意的是,這並非 AI 模型首次被指控竊取資訊。早在 2023 年 6 月,OpenAI 就曾被小說作家提告使用其作品被 OpenAI 用來訓練大型語言模型。NVIDIA 也曾面臨書籍作者的訴訟,指控其使用 196,640 本書籍訓練 NeMo 模型,該模型後來已被下架。

目前,Meta 尚未對這些新的指控做出回應,但公司一直堅持使用 LibGen 訓練 AI 屬於「合理使用」範疇。而目前案件仍在審理中,考慮到 Meta 龐大的財務實力,即使作者方面獲勝,Meta 也可能會提出上訴,這意味著最終判決可能還需要等待數月甚至數年才會出爐。

【推薦閱讀】

效能媲美 NVIDIA,耗電僅 1/3!新創 Positron 獲融資 2,350 萬美元

「幾週後我們不會再談 DeepSeek」美國 AI 新創想用但遇 3 大麻煩

曾拒幫美國監視人民,如今 Google 收回「不把 AI 當武器」承諾

*本文開放合作夥伴轉載,參考資料:《Ars Technica》《Tom’s Hardware》,首圖來源:Unsplash

(責任編輯:廖紹伶)

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章