一群作者控告 Anthropic 使用數十萬本盜版書訓練 Claude AI
一群作者對 Anthropic 提出訴訟,指控該公司使用盜版書籍訓練其 AI 模型。根據《路透社》報導,這項集體訴訟於週一在加州法院提出,聲稱 Anthropic「透過盜用數十萬本受版權保護的書籍,建立了一個價值數十億美元的企業」。
The Pile 數據集引發爭議
訴訟中,作者們表示 Anthropic 使用了一個名為「The Pile」的龐大開源數據集來訓練其 Claude AI 聊天機器人系列。這個數據集中包含稱為 Books3 的部分,是一個包含 Stephen King、Michael Pollan 等數千名作者作品的大規模盜版電子書庫。本月初,Anthropic 向《Vox》證實確實使用了 The Pile 來訓練 Claude。
作者要求停止使用受版權保護的內容
訴訟指出:「顯然 Anthropic 下載並複製了 The Pile 和 Books3,明知這些數據集包含了大量來自 Bibiliotik 等盜版網站的受版權保護內容。」作者們希望法院確認其集體訴訟的地位,並要求 Anthropic 支付擬議的損害賠償,同時禁止該公司在未來使用受版權保護的材料。
涉案作者及相關調查
提起訴訟的作者包括《We Were Never Here》的作者 Andrea Bartz、《The Good Nurse》的作者 Charles Graeber,以及《The Feather Thief》的作者 Kirk Wallace Johnson。雖然訴訟承認 Books3 已從 The Pile 的「最官方」版本中移除,但原始版本據稱仍可在網上其他地方找到。最近的一項調查還發現,Anthropic 和 Apple 等公司在訓練其 AI 模型時,使用了 The Pile 中數千個抓取自 YouTube 影片字幕的內容。
AI 訓練資料引發的法律糾紛
去年,前阿肯色州州長 Mike Huckabee 和其他作者也對 Meta、Microsoft 和 EleutherAI(The Pile 的幕後非營利組織)提出類似訴訟,指控他們的作品被盜用於訓練 AI 模型。George R.R. Martin、Jodi Picoult、Michael Chabon 等多位作者也因類似原因起訴了 OpenAI。
NewMobileLife 網站:https://www.newmobilelife.com
Facebook:https://www.facebook.com/jetsoiphone