一群作者對 Anthropic 提出訴訟,指控該公司使用盜版書籍訓練其 AI 模型。根據《路透社》報導,這項集體訴訟於週一在加州法院提出,聲稱 Anthropic「透過盜用數十萬本受版權保護的書籍,建立了一個價值數十億美元的企業」。
The Pile 數據集引發爭議
訴訟中,作者們表示 Anthropic 使用了一個名為「The Pile」的龐大開源數據集來訓練其 Claude AI 聊天機器人系列。這個數據集中包含稱為 Books3 的部分,是一個包含 Stephen King、Michael Pollan 等數千名作者作品的大規模盜版電子書庫。本月初,Anthropic 向《Vox》證實確實使用了 The Pile 來訓練 Claude。
作者要求停止使用受版權保護的內容
訴訟指出:「顯然 Anthropic 下載並複製了 The Pile 和 Books3,明知這些數據集包含了大量來自 Bibiliotik 等盜版網站的受版權保護內容。」作者們希望法院確認其集體訴訟的地位,並要求 Anthropic 支付擬議的損害賠償,同時禁止該公司在未來使用受版權保護的材料。
涉案作者及相關調查
提起訴訟的作者包括《We Were Never Here》的作者 Andrea Bartz、《The Good Nurse》的作者 Charles Graeber,以及《The Feather Thief》的作者 Kirk Wallace Johnson。雖然訴訟承認 Books3 已從 The Pile 的「最官方」版本中移除,但原始版本據稱仍可在網上其他地方找到。最近的一項調查還發現,Anthropic 和 Apple 等公司在訓練其 AI 模型時,使用了 The Pile 中數千個抓取自 YouTube 影片字幕的內容。
AI 訓練資料引發的法律糾紛
去年,前阿肯色州州長 Mike Huckabee 和其他作者也對 Meta、Microsoft 和 EleutherAI(The Pile 的幕後非營利組織)提出類似訴訟,指控他們的作品被盜用於訓練 AI 模型。George R.R. Martin、Jodi Picoult、Michael Chabon 等多位作者也因類似原因起訴了 OpenAI。
NewMobileLife 網站:https://www.newmobilelife.com
Facebook:https://www.facebook.com/jetsoiphone
留言 0