楼主:
EPika (精灵皮卡丘)
2025-02-10 08:27:42祖克柏批准 Meta 使用“盗版”书籍训练 AI 模型,作家提告
莎拉·席佛曼等人在法院提起诉讼,声称 Meta 执行长批准使用受争议的数据集,尽管内部
曾有警告
撰文:丹·米尔莫(Dan Milmo)与通讯社报导
发布时间:2025 年 1 月 10 日(星期五)13:09 GMT
Meta 执行长 马克·祖克柏(Mark Zuckerberg) 批准该公司使用“盗版”版权书籍来训练
其人工智能(AI)模型,一群作家在美国法院的诉讼文件中如此指控。
该文件引用了 Meta 内部通讯,声称祖克柏支持使用 LibGen 数据集(Library Genesis,
图书创世纪),这是一个庞大的线上图书库,尽管该公司的 AI 管理团队曾警告这是一个“
我们明知为盗版”的数据集。
根据诉讼文件,内部讯息显示,使用包含盗版内容的数据库可能会削弱 Meta(Facebook 和
Instagram 母公司)与监管机构的谈判立场。文件中提到:“如果媒体报导我们使用了我
们明知为盗版的数据集,例如 LibGen,可能会削弱我们与监管机构的谈判地位。”
作家对 Meta 提起诉讼
美国作家 塔-内西·科茨(Ta-Nehisi Coates)、喜剧演员 莎拉·席佛曼(Sarah Silverman
) 等人于 2023 年对 Meta 提起诉讼,指控该公司滥用他们的书籍来训练 Llama(Meta 的
大型语言模型,Llama chatbot 的核心技术)。
Library Genesis(LibGen) 是一个源自俄罗斯的“影子图书馆”,声称拥有数百万本小说
、非小说书籍和科学杂志文章。去年,纽约联邦法院裁定,LibGen 的匿名运营者需向一群
出版社支付 3,000 万美元(约 2,400 万英镑) 的版权侵权赔偿金。
在 AI 训练数据领域,是否能使用受版权保护的内容已成为法律战场。许多创意工作者和出
版商警告,未经授权使用他们的作品来训练 AI,正在威胁他们的生计与商业模式。
Meta 内部文件曝光
诉讼文件引用的一份备忘录提到:“在提交给 MZ(马克·祖克柏)批准后,Meta 的 AI 团
队已获准使用 LibGen。”
文件还引用了内部通讯,显示 Meta 工程师曾讨论如何存取和审查 LibGen 数据,但有些人
对此感到犹豫,因为 “使用公司笔电进行 Torrent(点对点档案分享)感觉不太对劲。”
法院审理进展
去年,美国地方法官 文斯·查布里亚(Vince Chhabria) 驳回了部分对 Meta 的指控,包
括 Meta AI 生成的文本是否构成版权侵犯,以及该公司是否非法移除了书籍的 版权管理信
息(CMI)(例如标题、作者名称和版权拥有者资讯)。然而,原告获准修改诉状,重新提
出相关指控。
本周,这些作家团体表示,最新的证据进一步强化了他们的侵权主张,并应当恢复他们对 C
MI 的指控,甚至新增 “电脑诈欺” 相关指控。
查布里亚法官在周四的听证会上表示,他会允许作家团队提交修正后的诉状,但对诈欺和 C
MI 指控的有效性仍抱持怀疑态度。
Meta 方面尚未对此事发表评论。
(此报导参考了路透社资讯)