标题:生成式AI LlaMA著作侵权案简易判决出炉 – 北加州法院再下一城Kadrey v. Meta
(中)
新闻来源:iknow科技产业资讯室
原文网址:https://reurl.cc/9n5p1O
原文:
七、判断要素二:著作作品的性质
第二项要素认为,“有些作品比其他作品更接近著作权拟保护的核心,结果是当这类作品
被复制时,更难成立合理使用”。获得较强著作权保护的作品,包括书籍和电影等具创意
性的作品;保护程度较低的则包括电脑程式码。法院认为此要素二有利于原告,其书籍主
要为小说、回忆录与剧本,是高度表达性的作品,属于“著作权法所重视并欲保护的类型
”。即便其中一些作品属于事实性内容(如自传)而非小说,这一事实也不会改变本结论
,因为著作权仍保护作者“表达事实的方式”。
(一)功能性元素 v. 创造性表达
Meta则辩称,这一要素无论如何都对Meta有利,因其使用原告书籍仅只是为了获取其“功
能性元素”(functional elements),而不是为了利用其“创造性表达”(creative
expression)。Meta主要依赖第九巡回上诉法院涉及“中介性复制”(intermediate
copying)的案件,在Sega Enterprises v. Accolade和Sony Computer v. Connectix这二
案,电玩公司复制一家电玩主机制造商受保护的程式码,并对其进行逆向工程,以理解该
程式码的某些功能性元素,使得该电玩公司能打造与原告产品相容的产品。在这二起案件
中,巡回法院都认定,被告的合理使用抗辩成立,因为尽管被告复制了原告程式码中的表
达性元素,但这样做,只是为了存取程式码中不受保护的功能性元素。
(二)词汇顺序、用词选择、文法与语法也是表达思想方式
本案法院认为,与上述案件中的使用情形不同,Meta对原告书籍的使用,确实依赖于书籍
中的创意表达。正如Meta自己所指出,LLM的训练方式是透过学习“词汇与概念之间的统
计关系”,并蒐集“关于词汇顺序、出现频率(哪些词被使用以及使用频率)、文法与语
法”的统计资料。而这些项目正是人们表达思想的方式(即使在狭义的表达定义下,“词
汇的排序与选择”仍属于一种表达)。因此,即使LLM所学的可能是“统计关系”,但这
些关系本身也是创意表达的产物,尽管Llama所“消化”而理解的这种表达的方式与人类
不同,情况仍然如此。
(三)本案不适用“中介性复制”案例
Meta为了支持其抗辩 – 即复制原告书籍是为了撷取非表达性资讯,因此主张应适用“中
介性复制”的案例,并援引Google Books案,但法院认为情况与本案不同。该案中原告是
一些作家,指控Google构成著作权侵害,因其将原告书籍制作数位化副本,并建置一个资
料库供使用者搜寻,以查看数据库中哪些书籍包含搜寻字词。然而,与本案不同的,
Google案中所涉及的技术,对内容是中立的(content agnostic):即使数据库中充满乱码
或以未知语言编写的书籍,数据库也不会运作得更好或更差。如果有人搜寻这些文字,那
些书籍就会出现在结果中。相较之下本案中,若Meta的LLM要生成高品质的文本,就必须
仰赖具连贯性且品质合理的训练资料。换句话说,其需要高品质的表达内容。因此,“中
介性复制”的案例不适用于此。
不过,法院仍认为第二要素“在合理使用争议的判断中,很少扮演重要作用”。且当被复
制的作品已经发表,二次使用者无法干预创作者控制其作品首次公开作品的权利时,此要
素的适用力道将会“较弱”。因此,尽管第二要素对原告有利,但对整体分析的意义并不
大。
八、判断要素三:使用部分相对于整体著作中的数量和实质性
此一要素评估“所使用部分的数量与实质性,对于复制之目的而言是否属于合理范围”。
因此,这一要素与第一要素相关,因为“可接受的复制范围,会随着使用目的与性质之不
同而有所差异”。法院认为,本案中复制的数量似乎不是特别相关的要素。例如,在涉及
音乐讽刺之最高法院Campbell v. Acuff-Rose Music案中,复制大量原曲内容,可能会增
加讽刺作品“替代市场的可能性”。
但就本案而言,有鉴于Meta的LLM,不会输出原告书籍中任何有意义数量的实质内容。因
此,重点在“相关的考虑要素…不是复制者使用了多少受著作权保护的数量,而是‘有多
少受著作权保护的内容公开给大众’”。法院认为,即使复制原告书籍的全部内容,有鉴
于已构成转化性之目的,复制数量是合理的,而二造都同意LLM训练资料的品质越高,性
能越好,因此,为了训练LLM,喂进(复制)整本书比半本书更有价值。在此背景下,使
用作品全部内容是“合理必要的”(reasonably necessary),故本要素对Meta有利。
九、判断要素四:使用对著作权作品之潜在市场或价值的影响
本要素关注的是:“被指控侵权者之特定行为,对市场造成的损害程度”,以及“被告所
从事此类不受限制且广泛进行的作为,是否会对原作的潜在市场产生实质不利影响。”。
与此要素相关的“唯一损害”,是“市场替代所造成的损害”。相对而言,如果二次创作
透过批评或讽刺而扼杀了原作需求,则此类损害并不被著作权法所认可。而与此要素相关
的,还包括“复制可能产生的公共利益”。
(一)第四项要素是合理使用分析中最重要的要素
法院认为,第四项要素“无疑是合理使用分析中最重要的单一要件”。因此,Meta所主张
“因第一项要素对其极为有利,因此分析应止于此”的说法是错误的。相反的,基于第四
项要素的重要性,可以很容易地想像一种情况:即便某项二次使用具有高度转化性,但若
允许大众从事该使用,会对原作市场造成过大的影响时,仍可能导致合理使用抗辩失败。
同样的,在某些第一要素明显有利于被告的案件中,原告若欲击败合理使用主张,则仅有
掌握第四要素来取得逆转胜的机会。
(二)生成式AI对原告作品市场造成损害之三种方式
法院先设定,在涉及使用受著作权保护的作品,来训练生成式AI模型的案件中,权利人即
原告可能会提出至少三种方式,主张被告的复制行为对其作品市场造成损害(或者如果此
类复制行为广泛传播,将对市场造成损害):
首先,权利人可能主张,该模型会“吐出”其作品(重现与其实质相似的输出内容),因
此让使用者可透过模型,免费取得这些原作或其替代品。
其次,权利人可能指出,其作品授权用于AI训练的市场,并主张未经授权的复制行为损害
了该市场(或阻碍该市场的发展)。
第三,权利人可能进一步主张,即使该模型无法重现其原作或产出实质相似的内容,它仍
能生成在题材或类型上足够相近的作品,进而与原作竞争而构成“间接替代”
(indirectly substitute)。
在本案中,前两项主张皆不成立;第三种主张虽然相对较具潜力,但原告的论述过于薄弱
,以致于既无法改变整体分析结果,甚至连提出足以反驳简易判决的事实争点都做不到,
法院兹就此三点展开讨论。
1. Llama不会“吐出”重现原告实质相似的内容
如果Llama能用来生成原告书籍的大量内容,或是产出与其书籍高度相似、以至于构成侵
权的文本,那这将会威胁到原告书籍的市场,因为人们可能会转而阅读这些输出内容。但
本案中,此种损害理论并不成立,如上所述,Llama并不会让使用者从原告书籍中,生成
任何有意义的段落。双方的专家证人都不认为,Llama能从任何一本原告书籍中,重现超
过50个字的内容,即便是在使用刻意设计来试图让LLM“吐出”原文的“对抗性提示”情
况下也是如此。
相较在Google Books案中,第二巡回上诉法院裁定,尽管该服务让使用者看到总计高达一
本书16%的片段,但该二次使用“并未对著作权人之著作价值,造成任何实质性的损害威
胁,也未削弱其从著作权中获得的收益”。本案由于原告的专家证人也承认,Llama不会
生成其中“任何显著比例”的书籍内容。特别是Llama即使在“对抗性提示”刻意操控下
,Llama也只能重现原告书中极少部分的内容,这并不足以对原告书籍的“潜在市场或价
值”产生“重大或显著的影响”。
2. Meta复制行为损害原告之授权市场
原告关于市场损害的主要理论是,Meta未经授权使用其书籍进行LLM训练,损害了将其书
籍用于该目的之授权市场。原告几乎将其对第四项要素的全部讨论,都集中在这个理论上
。因此,双方就关于“是否存在一个可供通常交易书籍之授权市场,或该市场是否有可能
发展”一事,展开冗长的辩论。
但法院认为,该市场是否存在或是否可能发展,其实都不重要,因为原告法律上并无权垄
断这样的市场。在每宗合理使用案件中,如果将潜在市场定义为,作为所涉及授权使用理
论上的市场,那么“原告都会遭受潜在市场之损害”。因此,为避免第四项要素的分析陷
入循环论证,并在每个案件中都偏向权利人,针对转化性使用目的而导致授权费损失的伤
害,不应被视为可认定的损害。
3. Meta生成相近作品进而与原作竞争构成“间接替代”
使用受著作权保护的书籍来训练LLM,对这些作品之市场可能造成损害的方式,是这种训
练可能促成大量作品的快速生成,即使这些作品本身虽不构成侵权,却会与原作竞争。人
们可能利用LLM来创作书籍并贩售,与由人类作者创作的书籍在销售和读者注意力上竞争
。因本案法院最重视此点,遂进而就此展开“市场稀释”与“间接替代”之法律论述。
(三)“市场稀释”与“间接替代”所造成损害
1. “市场稀释”之损害系“间接替代”造成
由于透过提示让LLM生成书籍可能非常容易,人们甚至会将这些书籍免费释出。这类竞争
所造成的损害,即为“市场稀释”(market dilution)所导致之损害。而此种损害是“间
接替代”所造成,而非“直接替代”[1](后者即前述第一种损害形式)。当然,并非所
有受著作权保护的作品,在面对AI生成内容竞争时,都会受到相同程度的“市场稀释”。
例如AI所生成的书籍,似乎不太可能有效地抢走知名作者的销售量,因为读者购买这些书
主要是为了该特定作者的作品。但可轻易想见的,AI生成的书籍很可能会成功挤压不太知
名、或新锐作者的作品市场。
对于某些特定类型的作品,这种市场影响似乎更为明显。例如,一个能随意产生高品质图
像的AI模型,可能会极大程度地影响此类图像的市场,从而大幅削弱人类创作这些图像的
动力;而一个能产生有关时事之准确资讯的LLM,则可能对纸本新闻市场造成严重打击;
某些非小说的作品(例如,关于如何照顾园艺的书籍)的市场,也可能因LLM能轻易生成
该主题的书籍而大幅萎缩。至于小说作品的影响,则可能取决于作者或作者创作的体裁。
2. 应注意作品本身差异性所带来不同之市场影响
以上这些差异,可能部分是源自于某些作品本身相对偏重“功能性”,而较不依赖“作者
的创意”。例如,在选择新闻文章时,读者所期望的是清晰、准确、简洁地传达一则当前
或过去事件的内容。相较之下,读者在选择小说时,往往更重视多层面的特质,例如主题
深度、写作风格、情节设计与角色发展等,或更偏好情节曲折、富有变化,或能细腻描绘
人物发展的作品,而这些元素在很大程度上有赖于作者的创造力。
虽然新闻文章同样体现了作者的创意(特别是在结构与措辞方面),但一般而言,普通小
说比新闻文章包含更多创意,而这些创意选择对普通小说的品质更加重要。与此相关可以
想像的,人们也许更在意一部小说是否为AI生成(非人类创造力的产物),而不是新闻文
章是否由AI撰写。
3. 评估“市场稀释”时应比较之对象
应注意的是,在评估“市场稀释”时,应该比较的对象并非“没有LLM的世界”,而是“
未接受过以著作权保护书籍作为训练资料的LLM世界”。根据现有证据,书籍作为训练资
料,确实能大幅提升LLM的创造力和生成长篇文本的能力,由于LLM所受训练的文本越多,
其表现通常越好。因此,若模型仅以公有领域作品训练,其能力在一般条件相同的情况下
,预料会远落后于同时接受著作权保护书籍训练的模型。因此,如LLM以受保护书籍进行
训练,在大多数情况下似乎更能使LLM创作更好作品,从而对其训练资料中的书籍产
生“市场稀释”。
4. AI输出相似度较低内容仍可能导致市场替代
反之,Meta则认为“市场稀释”不应列入第四要素考量。其认为只有当LLM的输出本身构
成侵权,也就是LLM“重制著作权作品”或“产出与其实质相似的内容”时,其结果造成
的这种损害才具有相关性。但法院认为这种说法并不正确,如果LLM能重现那些受保护作
品,或生成实质相似的文本,复制书籍的市场将受到损害当然较为明确。但是,即使是相
似度较低的输出内容,例如同一主题或类型相近的书籍,也仍然能在市场上与训练资料中
的原著书籍竞争,透过分散抢走原书的销售额,或是让大量类似书籍充斥实体与线上书店
,导致原书无法被人注意和购买,这些结果都会削弱创作者创作的诱因