全球首宗音乐出版商控告生成式AI Claude著作侵权案
原文网址:
https://bit.ly/44WTW1x
原文:
ChatGPT自从2022年底问世后在全球大放异彩,但江山代有才人出,时隔一年多在大型语
言模型赛道中,后起之秀Claude 3聊天机器人曾超越GPT-4,登上最强AI模型排行榜冠军
,被誉为可打败GPT-4之最强的LLM!但人(Chatbot)红是非多,与OpenAI不断被告一样,
Claude也引发生成式AI的侵权官司:Concord Music Group, Inc. et al., v.
Anthropic PBC,这是全球第一件涉及生成式AI与音乐产业的侵权案例。
美国三大音乐出版商(包括Concord、Universal和ABKCO)和多家音乐出版商,于2023年
10月中在田纳西州中区地院纳许维尔分院(Nashville为著名音乐城市被誉为音乐之都)
,起诉Anthropic(以下称被告)指控其非法复制出版商拥有的歌词文本,来训练、建构
和营运其AI模型Claude,生成与受著作权保护的歌词作品相似或相同的文本,大量散播侵
犯原告音乐作品著作权,寻求7500万美元赔偿 [1],出版商并申请法院颁发永久禁制令
(permanent injunction),拟禁止侵犯出版商的著作权。
一、本案起诉背景
原告等是八家知名的音乐出版商,包括Concord Music Group、Capitol CMG、Universal
Music、Songs of Universal、Universal Music、Polygram Publishing、Capitol CMG、
ABKCO Music等(以下统称出版商或原告)。本案涉及Anthropic所开发名为Claude的AI模
型,原告主张,除非获得授权否则任何人不能复制、散布或展示他人具著作权的作品,来
建立自己的业务,此一法律基本原则一再经历无数新兴科技的迭代发展而仍得适用,该原
则不会因为将侵权行为包装为“AI”而随之消失;就像其他技术开发一样,从印刷机到影
印机再到网络爬虫(web-crawler),AI业者必须守法。
原告主张,近几年AI技术爆炸性的发展,尤其对音乐产业带来突破性的影响力,然而,这
些技术进步不能以牺牲创作者做为代价,AI技术应以合乎道德和负责的方式,来开发和应
用AI工具所带来的巨大潜力,以保护出版商和词曲作者的权利、谋生方式和整个创意生态
系统,但Anthropic为了营运AI模型,竟大规模非法复制和散播受著作权保护的音乐歌词
,或将这些歌词用AI模型作为输入或输出。出版商遂提起本案,以解决Anthropic对歌词
著作权系统性的广泛侵权。
二、Anthropic营运与Claude AI模型提供方式
Anthropic是一家美国德拉瓦州公司,从事开发、营运、销售和授权AI技术,由前OpenAI
高管 于2021年创立,并获得Amazon、Google、Zoom和Salesforce等公司数亿美元投资,
虽然才刚成立,但据报导Anthropic估值已高达50亿美元,并获得超过73亿美元的资金,
号称是OpenAI最大的竞争对手。
原告指控,Anthropic未遵循合法途径之市场机制,支付费用取得正当授权,而是从网络
上大量抓取出版商受著作权保护之材料经营业务。这种擅自非法复制和散布的行为,剥夺
歌曲创作者的创意成果,其不仅从侵犯出版商作品中获取丰厚不当利益,还与那些合法支
付授权费的业者进行不公平竞争,不但严重破坏授权市场机制、损害音乐创作,更侵蚀作
品的艺术、文化和经济价值。
Claude AI模型系一种通用大型语言模型(LLM),Anthropic从网络和其他来源,撷取复制
各种大量文本输入模型,建构高达数十或数百亿个字词之庞大语料库以“训练”Claude,
并基于这些复制的文本产生输出。而Anthropic为其模型复制庞大的文本中,包括出版商
无数受著作权保护的歌词作品。因此Claude才能以接近人类智慧的方式,对使用者的查询
提供基于文本的回答。
Anthropic以二种方式提供其Claude AI模型:经由Anthropic网站上的聊天接口,以及透
过商业应用程式接口(API)客制化的第三方客户端软件,和Claude AI模型互动。一方面,
,Anthropic在网站上为个人使用者,提供Claude 2 作为“聊天机器人”的造访权限,该
机器人以AI生成对话式的答复,来回应使用者提示的问题指令,Claude分为付费订阅版和
有限的免费版。另一方面,Anthropic透过API将Claude模型出售或授权给商业客户,以便
将Claude整合到客户的软件和系统中。当客户使用Anthropic API将提示输入到其软件时
,该软件会将提示传送到Anthropic服务器,再将其作为输入传递到其AI模型,然后伺服
器将模型的回应传送回客户软件。
三、开发Claude AI产生文本之步骤
原告指控,由于Anthropic透过大规模复制向其底层模型喂入大量文本,Claude模型才得
以用类似人类对话方式来回应使用者的提示。但Anthropic并未以自行开发或经授权的文
本来训练其AI模型,而是非法从网络上收集复制这些受保护的歌词,作为其AI模型的文本
输入,Anthropic透过以下步骤来“训练”其Claude AI模型产生文本:
首先,Anthropic直接从网络和其他数位来源,使用网络爬虫(web crawlers)等自动化工
具,透过“爬取”(即复制或下载)复制大量文本(或透过第三方由网络抓取材料),将
其下载到Anthropic服务器上,这些大量文本收集形成Claude模型的输入称为“语料库”
(corpus),然后该模型在此基础上进行训练。
其次,Anthropic对复制的文本进行“清洗”(clean),以删除与其业务模式不一致的材料
,这可能包括出于技术或主观上的原因,例如重复删除数据(deduplication),但大多数
情况下Claude这种“清洗”过程,完全忽略复制文本中可能涉及之著作侵权材料。
再者,Anthropic将先前复制文本之庞大语料库存到电脑内存中,并以这些数据来训练
Claude模型,建立成该模型的数十亿个参数值。这其中包括收集文本之复制与划分,并将
其转换成称为“断词”[2](tokens)的单元,这些断词是单词或是文字和标点符号的一部
分,以便进行储存,此即将文字“编码”(encoding)为断词之过程。对Claude而言,平均
断词之长度约为3.5个字符(characters) [3]。
最后,Anthropic透过进一步处理数据,根据人类及AI的回馈,当对Claude AI模型进行“
微调”(finetuning)和“强化学习”时,Anthropic就其所收集文本会要求另外的复制。
一旦该输入和训练过程完成,Claude AI模型生成的输出在结构和风格上,与其训练语料
库中的文本及强化回馈(reinforcement feedback)一致。当使用者下提示时,Claude会根
据其模型作出回应,而该模型是其在大型文本语料库进行“预训练”和“微调”的产物,
包括基于人类回馈的强化学习而形成。在此处理过程中,Claude系使用断词形式的文本,
但输出是普通的可读文本。
四、Anthropic非法利用出版商的作品
出版商指责Anthropic以下列几种方式,非法利用其作品:
(一)、Anthropic大规模复制出版商受著作权保护的歌词,作为其AI模型初始数据中的
一部分,用于建立数据以训练其AI模型的程式设计。虽然Anthropic利用从网络上收集的
大量文本支援其AI模型,然而,某些内容可在网络上取得,并不代表Anthropic可以免费
擅加利用其来达到私利之目的。此外,Anthropic在很大程度上,还隐藏其用于训练AI模
型文本的具体来源 [4]。
Anthropic在训练AI模型时,大幅依赖如Common Crawl数据集 [5],其包含来自流行歌词
网站(像是genius.com、lyrics.com和azlyrics.com等)拥有庞大内容数据集之大型文本
收藏 [6]。此外,该模型根据使用者提示作出回应,产生与出版商受保护之歌词相同或几
乎相同的副本(详下述),这清楚显示,Anthropic在开发时向模型提供这些歌词的副本
。在训练过程中,Anthropic必须复制这些歌词并透过模型处理,以便模型随后将歌词的
副本作为输出进行散播。
(二)、Anthropic在清洗、处理、训练和微调其AI模型所撷取的资料时,包括在对数据
进行断词化(tokenizing)作业时,会产生未经授权之出版商受保护歌词的复制。尽管
Anthropic会“清洗”其摄取的文本,以删除带有攻击或冒犯性的语言,并过滤掉其希望
从训练语料库中排除的特定内容,但Anthropic并未采取任何措施,来删除那些受著作权
保护的内容。Anthropic在其摄取和训练过程中,未经授权复制出版商的歌词,已侵犯出
版商作品的著作权。
(三)、Anthropic的AI模型训练后供客户使用时,散播出版商受保护歌词之相同或几乎
相同的副本,也侵犯出版商的著作权。透过Anthropic的商用API或其公共网站造访Claude
模型后,使用者可要求经由Claude,获取各种受著作权保护之逐字相同或几乎相同的歌词
,与原始作品惊人地构成“实质相似”。
五、被告生成之歌词是否与原作品构成实质相似
出版商指控,Anthropic之Claude至少以下列方式侵权:
(一)、提示音乐作品之询问会生成侵权歌词
由于Anthropic大量复制出版商的歌词,其AI模型侵犯著作权。当使用者提示Claude AI提
供歌曲的歌词,或任何其他出版商的音乐作品时,该聊天机器人会回应包含这些歌词的全
部或大部分内容。出版商列举以下若干明显实例:
1. 当Claude被提示问到:“Katy Perry唱的Roar的歌词是什么?”时,AI模型会提供与
这些歌词几乎相同的回应,侵犯Concord的著作权。
2. 当Claude被提示问到:“Gloria Gaynor唱的I Will Survive的歌词是什么?”时,该
AI模型提供几乎一字不差的歌词,侵犯环球的著作权。
3. 当Claude被提示问到:“Garth Brooks唱的Friends in Low Places的歌词是什么?”
时,模型以几乎相同的方式提供这些歌词的副本,侵犯环球的著作权。
4. 当Claude被提示询问:“Rolling Stones的You Can't Always Get What You Want的
歌词是什么?”时,模型以逐字复制的方式提供这些歌词的副本,侵犯ABKCO的著作权。
Claude还能为新的歌曲生成歌词,输出包括具有著作权歌曲的歌词。原告除以上的例子外
,还详细列举出Anthropic侵犯的每个作品,证明Claude的输出与出版商的歌词完全相同
或极其实质相似。Anthropic所侵犯的涵盖各音乐类型,包括经典作品及当今排行榜的热
门单曲。
(二)、即使未提及具体歌曲Claude也会生成侵权歌词
出版商主张,Claude即使未被明确要求,该AI模型也会产生复制和散布出版商具有著作权
歌词的输出。当提示Claude为某个特定主题写一首歌