「用公司筆電下載這些資料感覺不太對」Meta 為訓練 AI 下載盜版書規模驚人

Meta（前身為 Facebook）近期捲入一場版權侵權訴訟風波。根據最新解封（在美國法律體系中，某些法庭文件可能會因各種原因被「封存」（sealed），意味著這些文件不對公眾公開）的電子郵件證據顯示，Meta 被指控透過種子下載（torrenting）方式，從多個影子圖書館（shadow libraries）下載了至少 81.7 TB 的資料，其中包括來自 Z-Library 和 LibGen 的 35.7 TB 資料。此外，Meta 先前還曾從 LibGen 下載了 80.6 TB 的資料。

編按：
種子下載（torrenting）是一種點對點（peer-to-peer，簡稱 P2P）的檔案分享方式。
影子圖書館，是將學術文獻和小說開放提供給大眾的線上資料庫，大多都以侵犯著作權的方式提供內容。

訴訟文件指出，Meta 的這些行為涉及到的範圍很大。原告表示，有人盜版少量資料（比如 6.5 GB，大約是 1-2 部高畫質電影的大小），法官就認為嚴重到需要刑事調查，而 Meta 現在被指控下載的資料量（81.7 TB）比這個量大了約 12,500 倍，「小規模盜版都要進行刑事調查了，那 Meta 這麼大規模的行為豈不就更嚴重？」

廣告（請繼續閱讀本文）

員工曾對下載行為表示擔憂、Meta 也刻意隱藏

解封的電子郵件中揭露了 Meta 內部員工對這些下載行為的顧慮。Meta 研究工程師 Nikolay Bashlykov 在 2023 年 4 月的一則訊息中寫道：「用公司筆電下載這些資料感覺不太對」，並表達了對「使用 Meta IP 位址下載盜版內容」的擔憂。到了 2023 年 9 月，Bashlykov 直接向法律團隊諮詢，強調使用這種下載方式可能會有法律問題。

根據訴訟文件，Meta 研究員 Frank Zhang 的內部訊息顯示，公司選擇不使用 Facebook 伺服器進行下載，以避免被追蹤到下載者身份。Meta 專案管理主管 Michael Clark 在證詞中也承認，公司確實修改了設定，試圖刻意避免被系統追蹤。

廣告（請繼續閱讀本文）

AI 的版權問題並非首次發生

值得注意的是，這並非 AI 模型首次被指控竊取資訊。早在 2023 年 6 月，OpenAI 就曾被小說作家提告使用其作品被 OpenAI 用來訓練大型語言模型。NVIDIA 也曾面臨書籍作者的訴訟，指控其使用 196,640 本書籍訓練 NeMo 模型，該模型後來已被下架。

目前，Meta 尚未對這些新的指控做出回應，但公司一直堅持使用 LibGen 訓練 AI 屬於「合理使用」範疇。而目前案件仍在審理中，考慮到 Meta 龐大的財務實力，即使作者方面獲勝，Meta 也可能會提出上訴，這意味著最終判決可能還需要等待數月甚至數年才會出爐。

【推薦閱讀】
◆ 效能媲美 NVIDIA，耗電僅 1/3！新創 Positron 獲融資 2,350 萬美元
◆ 「幾週後我們不會再談 DeepSeek」美國 AI 新創想用但遇 3 大麻煩
◆ 曾拒幫美國監視人民，如今 Google 收回「不把 AI 當武器」承諾

＊本文開放合作夥伴轉載，參考資料：《Ars Technica》、《Tom’s Hardware》，首圖來源：Unsplash。

（責任編輯：廖紹伶）

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

員工曾對下載行為表示擔憂、Meta 也刻意隱藏

AI 的版權問題並非首次發生

更多理財相關文章

查看更多 TechOrange 科技報橘的文章

「用公司筆電下載這些資料感覺不太對」Meta 為訓練 AI 下載盜版書規模驚人

員工曾對下載行為表示擔憂、Meta 也刻意隱藏

AI 的版權問題並非首次發生

更多 理財 相關文章

查看更多 TechOrange 科技報橘 的文章

更多理財相關文章

查看更多 TechOrange 科技報橘的文章