[新闻] AI聊天机器人ChatGPT引爆著作侵权疑云?

楼主: ynlin1996 (Kennylin)   2023-03-10 13:44:29
AI聊天机器人ChatGPT引爆著作侵权疑云?——文字篇
https://bit.ly/3mCuMTA
AI聊天机器人ChatGPT横空出世后,大家竞相尝试用它来撰写各种东西,但这样是否可能因此抄袭,踩到著作侵权的地雷,值得探讨。
AI聊天机器人之滥觞到ChatGPT问世
早在1968年,美国电影大师史坦利·库布里克(Stanley Kubrick)所执导的“2001太空漫游”(2001: A Space Odyssey),迄今仍名列影史10大科幻电影,讲述一艘太空船被派到木星调查,舱中人类科学家和超级电脑HAL,彼此能用人工智能语言对谈,随后再展开人机斗智殊死战.…..,这些当初只是电影想像的情节,过了近半世纪到10年前智慧型手机内建标配语音助理,像Apple 的Siri或Amazon的Alexa,都使用自然语言处理(Natural Language Processing,以下称NLP)技术,如今终于真的可以人机对谈、查询各种资讯。
但没多久,人们就发现Siri固有其功能但受限于特定应用,并非真正具智慧的AI聊天机器人,而这个侷限终于在2022年11月底,由OpenAI所发表让人惊艳的“生成式预训练变换模型”ChatGPT(Chat Generative Pre-trained Transformer):一个由OpenAI训练整合出的大型语言模型(LLM)打通任督二脉,迎来人类第一次可能通过“图灵测试”(Turing Test)的扉页。ChatGPT引爆前所未见的全球热潮,发行仅二月余就涌入上亿人不断“喂资料”,让它成为万事通!被认为已正式跨入强人工智能(AGI: Artificial General
Intelligence)的门槛!而ChatGPT在AI界最大的突破,就是能处理极广泛主题之通用AI。
果然(机器)人红是非多,此项以AI类神经网络处理所发展出的强大工具,其反馈出来的自动生成内容日前已传出在美国好几件著作侵权官司,包括知名的OpenAI、微软等公司都被告。许多人认为,由于ChatGPT必须输入大量资料来训练AI模型,而过程中必须进行大量文本的重制,包括维基百科、各式文学小说、书籍期刊、报章杂志电视(含20家主流媒体)等内容,无一不遭到其拷贝置入语料数据库进行练功之“毒手”(像华尔街日报和CNN就大肆抨击其系“无偿”盗用),且不仅文字,其他各种素材亦然,如此肆无忌惮的重制他人具有著作权之文字、图画、影像、影片(DA
LL-E、CLIP于文字与图像间转换生成)和开源码(Microsoft的GitHub Copilot和OpenAI的Codex)等,终于衍生出著作权争议诉讼,本文拟先介绍文字相关之自然语言处理著作权议题。
自然语言处理概论
质言之,自然语言处理(NLP)为研究电脑与人类语言间交流互动的科学,涉及多项领域的交叉学科,主要是用电脑科学、语言学和AI来使电脑理解、分析、生成和操作自然语言。其分为自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language
Generating,NLG)二类型,NLU利用电脑理解人类自然语言的意涵,例如:网页查询或病例分析,NLG则利用电脑用生成自然语言来表达意思,例如:写新闻、说故事;当二者结合便能实现机器翻译与聊天机器人等功能。更进一步言,透过自然语言处理、语音辨识和情境感知等技术,使机器可感知当前情境,从而得与终端使用者进行沟通。
简单来说,NLP就是电脑利用程式语言执行工程师设计好的算法,对非结构化的人类语言资讯进行整理和解读,使电脑拥有理解、分析、驾驭人类语言的能力,甚至能以人类使用的自然语言完全直接沟通。一般来说,NLP模型多半是以机率和统计建模,而预测下一个词汇或句子的意思可能为何。举例言,输入一段文字:“今天天气很冷,地面覆蓋X”时,电脑会根据前段出现的关键字“天气”和“冷”,去预测X应填入“雪”、“冰”、“水”、“土”、“沙”之类的可能词汇,并计算出每个词汇的对应机率,结果由于“雪”的机率是相对最高,因此可能填入“雪”是最适合
之文意,其次才是“冰”、“水”等词汇。
自然语言处理技术向来之发展
NLP发展历程最早是先从基于规则(rule based)的系统开始,然后到基于统计(statistics based)的方法,再到深度学习技术,使其在理解和生成自然语言方面取得了显著的进展。基于规则系以电脑软件执行命令,NLP透过机器学习算法模型,让电脑从训练资料集(training
dataset)中学习,并寻找资料所含的特定模式和趋势,自动归纳或分类出语言规则,有效解决语言歧异性。如今,拜半导体芯片效能大幅提升运算速度之赐,AI可执行复杂的深度学习,让电脑阅读大量文章以找出前后文的语义特性,甚至自动摘要文章内容,通过训练模型来识别文本中的模式和关系;另一常用的技术则是词向量表示法,系将单词转换为数学向量的方法,以便电脑能够对单词进行操作。
而近年来深度学习又推动了NLP进一步的发展,其中的应用包括RNN(递回式神经网络,Recurrent Neural Network)、LSTM (长短期记忆网络,Long Short-Term Memory)。RNN在文字语言识别方面,常用于具有序列特性的资料,如演讲、时间序列、文本词汇序列、音节序列、影像影片序列与生成语句等,在短句方面有不错的学习效果。而LSTM则是解决RNN以往只能做短句分析、与模型中梯度无法收敛等问题;另,LSTM透过复杂多层的递回结构,得以有效辨识各类有先后顺序的讯息,适用于处理前后间隔较长时间序列的句子或段落。
如今,自从Google提出BERT(基于变换器的双向编码器表示技术,Bidirectional Encoder Representations from Transformers)预训练模型(Pretrained
Models)后,NLP就有了突飞猛进的进展。这些技术和模型常用以排列词句、词组、语音、文字及语句,形成类似于人类自然语言的形式,使得NLP在自然语言生成、语言理解、对话和问答系统获得显著进步。以上各种NLP研发,不外乎是进行:序列标记(如词性标记)、分类(如主题分类)、句子关系判断(如资讯萃取)、语料库建立(一种透过词语、词性标记形成电脑可判读分析之资料格式)、生成模式(如机器翻译、自动摘要)等工作程序,基本上非常繁琐。
ChatGPT技术运作逻辑之大突破
ChatGPT是由OpenAI开发之NLP模型GPT-3所延伸出的GPT-3.5 NLP生成模型。提到ChatGPT之前先谈一下AI的基本运作,其实运作逻辑可简单地想成一种如f (x) = ax + b的数学函式,其中x为可输入的文字、对话、影像、图画、程式....等,而a和b则为AI的参数,最后,透过ax + b的运算后输出f
(x)的结果,也就是AI的输出结果。抑或是,针对NLP而言,如前面所举的“今天天气很冷,地面覆蓋X”的例子中,NLP会根据前文出现过的关键字,找出可能词汇的机率分布(随机抽取文字),然后挑选其中机率相对高的词汇填入X。当然,ChatGPT实际运作要比前面所述更为复杂,不仅需透过数据工程师从巨量资料中标注资料、训练和测试,而且过程中涉及至少千亿个参数。
ChatGPT集结了机器学习中监督/非监督式学习、强化式学习、迁移式学习等技术,至于如何透过这些技术来达成今日人机对话的系统,首先要在网络上撷取众多文章等各种形式之原始资料样本,进而再透过AI训练师对大量资料清洗、加工与模型训练,再辅以人类训练师进行强化式学习,由AI训练师针对各项生成进行评分(reward),如果好就给它奖励或高分,不好就给他负评,终于让ChatGPT变得更强大!可以说,从稍早的GPT-3进展到现在GPT-3.5的ChatGPT,AI训练师的介入是核心关键之一,才造就今日让大家惊艳的结果。
问世以来,许多人认为ChatGPT对传统的搜寻引擎可能造成重大冲击,让Google备感压力。Google也在秘密开发聊天机器人Bard,可惜在与ChatGPT进行问答比赛时,因Bard答错一题让Google股价大跌7.4%,市值蒸发千亿美金,所有风采都被ChatGPT抢走。ChatGPT之所以受到微软青睐,另一个可能的原因,就是与Google搜寻引擎的差异化让微软看到新契机,并将新的AI搜寻引擎Bing添加到Windows 11的工具列中,用户也可以在Edge中快速启动Bing聊天机器人。
试想,当人们寻找一项答案时,ChatGPT不仅担任使用者利用搜寻引擎找答案的角色,而且还能将找到的答案井井有条地回复用户,ChatGPT在这方面的确符合人类需求。尽管目前ChatGPT回复的答案尚不尽正确,但经过几番训练之后,它不但日趋精进、且往往也会有些出令人意表的参考价值。
ChatGPT资料撷取之AI运作难于比对其出处
玩过ChatGPT的人都有这样的经验,当使用者在不同的时间输入相同的问题,它会呈现出不同的回复,有时甚至还大相迳庭。虽然ChatGPT的论文尚未公开(可参考姐妹版InstructGPT),但推测其可能是借由随机生成模式回答问题,这种模式,基本上无法找出该回复内容之原始来源,究竟是从哪几个网页撷取或参照原生素材,因为它根本就不是直接从各种文字中直接撷取再复制呈现的概念,这和一般透过搜寻引擎点击特定网页后,可看到原生内容的做法完全不同!而ChatGPT最令人惊讶之处,即在于它能重新组织文字、架构、逻辑,而这也导致使用者利用ChatGPT自动生成内긊e后,难于以“一对一”的对应关系,去还原、比对究竟是袭用了哪些原来的内容,因此这种运作模式,可能将巧妙地避开潜在之著作侵权疑虑!基于以上的操作,接下来谈著作权的议题。
按ChatGPT这样大量引用(其实就是重制)他人具著作权的内容而遭受到抨击,从法律角度看,这样的行为到底会不会构成著作侵权?因现实世界中有太多的文字撰拟需求,这是现在大家应特别关注的重点,尤其是近年来众多政治人物衍生论文抄袭的学伦争议,动辄惹上官司。基本上,除非得到授权或以合理使用的方式外,否则不可以擅自使用他人的内容,此为著作权法最根本的原则!而在网络上,直接大量撷取他人素材复制到数据库中,理论上已构成著作权法上之重制行为,惟此种“中间性重制”之情形,不见得立即推论出即构成侵权,例如早期搜寻引擎之操作,因其目ꨊ涨b指涉网站URL的路径或出处,就不构成违法,接下来要看它呈现内容的方式。
概念与概念之表达二分原则 & 著作权之原创性
与专利绝对垄断不同的保护标准,著作权因基于要促进文化发展、创造人类文明进步的立场,为了鼓励他人创作,会开一扇门保留一些弹性空间,因此其专属保护不像专利那般“只此一家、别无分号”地具有强烈之排他性。而著作权的基本原则是,只保护人类源于概念所写出来的具体表达内涵,这就是著作权法传统的“概念与概念表达二分原则”(“idea & expression of idea dichotomy” or “idea–expression distinction”) – 亦即“著作权不保护概念本身,而只保护概念表达出来的东西”[1]!
简言之,概念指创作中可能涉及之抽象的主题、思想、观念等,而概念表达则是用独特的方式,在例如文字、图像、音乐等形式中,将该抽象的意念落实地表现出人能看的到与感官的到之实际具体内容,来表达该作者内在的意念。根据此二分法原理,任何人参考、沿用他人著作内涵中所蕴藏相同或类似的概念是合法的,仍可自由发挥另行创作出自己不同表达内容的著作[2],而不用担心有侵权之疑虑。
然而,著作权所要求的原创性,并不像专利所要求发明创造的高门槛,著作权相对采低标:只要不是抄袭他人有著作权的实际具体内容,而带有一定程度的原创性,就够格受到保护。如以文字方面为例,任何人撰文时可参考他人文章,但当自己要写东西时,就必须谨守以上原则,不得产出跟他人相同或类似的文字、词语、句子结构、章节安排,但却可将他人文字中所隐含的概念,转化成不同文字,经自己消化后写成“概念相同”、但“表达完全不同”的内容,简单说,抄别人的观念可以,但抄到有血肉的文字内容就不行!当然,如果整篇文章都是别人的意涵,而完全用类似
的文字来取代,还是有擦边球的侵害风险!根据以上原理,就可以来探究一下究竟ChatGPT,是否真能达到只引用他人概念、而不使用到他人实际之文字内容。
ChatGPT滚动生成不易构成实质相似
由于ChatGPT的资料来源之一,是透过网络爬虫(web crawling)撷取大量具著作权资料,但进一步看ChatGPT的呈现方式,并非单纯只是在网络上撷取内容,反而是经消化后改写,再经整理后以不同面貌呈现。它也不像过去的专家系统那样,把问题的答案加以“拼凑组合”后端出来!ChatGPT透过上述学习方式,经众人不断询问而让它越来越聪明,循序演进自己滚动生出不同内容!尤其特别的,只要不选择新对话,在同一问题框架下,询问者可不断丢出更精准的问题指令(prompt),在往下发展的对答中,ChatGPT会来回调校优化,如此就揉合出诸多新内容。
也就是说,发问者在不断馈入指令的同时,它又会更新产生许多实质内容,最后统合出逻辑连贯的表达内容,只要询问者好好设计问题的词汇或架构,越具有专业性与针对性,甚至给的指令越有层次,那么所生成的内容就会越具体,最后的生成内容可几乎与原先网络爬虫所撷取具有著作权的内容不一样,因此构成实质相似的可能性越来越低,甚至量变到质变而完全不同!不过,NLP本身因是建构于机率与统计的数学模型,且AI本身即存有难以解释模型的黑盒子,人类尚无法完全准确解析,所以ChatGPT会产生与原作者类似的可能性也非绝无可能,因此使用ChatGPT撰文,更需괊n精心设计问题,且生成后应再反复多几轮深层的交叉提问,最好另加上若干自己的观点,这样才能舒缓著作之侵权疑义。
总之,以上ChatGPT内容撷取情形,是否必然可豁免于著作权侵害,虽尚待实际个案的检验,但至少从目前GitHub、OpenAI与微软被告的这个案例中,可以看出起诉的原告,并未从著作权文字著作受到ChatGPT侵害来提告,反而是依“数位千禧年著作权法案”(DMCA: Digital Millennium Copyright Act)指控开源码侵权,因此在现况下,ChatGPT似暂无被告“语言著作”侵害之危险(除非日后再追加提告)。

Links booklink

Contact Us: admin [ a t ] ucptt.com