[新闻] Google Transformer模型专利 – ChatGPT

楼主: stpiknow (H)   2023-08-08 10:24:42
Google Transformer模型专利 – ChatGPT自注意力机制之重要推手
https://bit.ly/45jFRdj
这半年多来,OpenAI所开发的ChatGPT聊天机器人在全世界夯到不行,该ChatGPT系指一种
基于生成式预训练转换模型(Generative Pre-trained Transformer,简称GPT),但其
中核心关键的Transformer模型算法,却非OpenAI或微软自己所原创。最早,是由推出
Bard聊天机器人的Google,率先开发出Transformer模型,而该模型系缘自于Google 2017
年所推出的原始论文“Attention Is All You Need”[1]而来,之后几家业者也陆续投入
基于Transformer模型为基础而改良或更进一步的应用,但没想到OpenAI和微软在商用上
却青出于蓝后来居上,威胁到Google推出的Bard,至于OpenAI和微软是否用到Google所发
表的Transformer模型专利虽有待考证,不过可以确定的是,2022年11月成功发表众所瞩
目的ChatGPT,Transformer模型应是其重要推手,得以让AI迈入新的深度学习技术框架之
里程碑,因此本文即揭开Transformer模型背后重要的专利。
话说自从Google的AI研发团队,于2017年在NeurIPS大会提出Transformer模型,并且描述
其在机器翻译方面高准确度的优异效能后,Transformer模型的相关研究与应用几乎就以
指数型态向上成长,甚至已经取代过去AI领域中,常用到的CNN卷积式神经网络
(Convolutional Neural Networks)与RNN递归式/循环神经网络(Recurrent Neural
Networks)等深度学习模型,特别是在引入“自注意力”(self-attention)的机制后,
Transformer模型获得前所未有且最接近人类的模仿与学习能力,AI终于可以借由追踪序
列资料中的关系,学习上下文之间的脉络及意义[2],“理解”(类理解)并记忆长篇大
论的文章,而且准确度大为提高许多,颠覆过去只能阅读短文的缺陷。
OpenAI利用Transformer模型研发出众所皆知的ChatGPT,其发表是基于GPT-3.5技术,并
在5天内突破百万用户注册,而其优越富含人性的对话互动体验,让世界看到Transformer
模型在未来的发展潜力。2023年3月更推出基于GPT-4为基础的ChatGPT,且放眼未来研究
基于GPT-5的技术,期望达到可扩展性(如透过增加模型规模和参数,以更加扩展自然语
言处理能力)、安全性(如降低大语言模型可能带来的不实资讯)、可解释性(如提高模
型的可解释性,让人类更好理解AI技术的应用模式)。
基于以上所提的transformer、generative、attention等技术关键字,搜寻到Google一篇
名为“Attention-based sequence transduction neural networks”(基于注意力序列
转导神经网络[3]),并在2019年10月22日获准案号为US 10,452,978 B2(以下称本专利
)的美国发明专利[4],而其申请日为2018年6月28日,从申请日到获准日也才仅18个月,
可见其创新度之高很快被审查委员肯定。此外,本专利目前之简单同家族专利数量38件并
分布在13国家,而被引用专利数量为55件(包含已获证与其获证之前的申请案),可见
Google的内部的决策高层,对该技术的未来发展有多重视。
图1为本专利Transformer模型的代表图,其独立项1揭露一种系统(标号100),包含一或
多个计算机与一或多个用以储存指令的储存装置,透过该等计算机执行指令,实现一以基
于注意力之神经网络(attention-based neural network,标号108),其用以将一输入
序列(标号102)转导[5](transduction)为一输出序列(标号152),其中该注意力神经
网络(标号108)又包含一编码神经网络[6](encoder neural network,标号110)、该
编码神经网络包含多个编码子网络(encoder neural network,标号130),各该编码子
网络(标号130)包含一编码自注意力子层(encoder self-attention sub-layer,标号
132),以及一解码神经网络[7](decoder neural network,标号150)。

图1 本发明Transformer模型的代表图
通常独立项可能隐含着一件发明专利的主要技术特征,也是专利申请人经过几次与审查委
员来回答辩、检索与调校,最后基于专利法而达成某种共识的一种技术保护范围,所以针
对独立项1,现在就拆解本专利Transformer模型之比较重要的技术元件来分析说明。
编码神经网络/解码神经网络
概括来说,本专利是透过编码神经网络(标号110)接收输入序列(标号102)后,再经由
注意力神经网络(标号108),对输入序列(标号102)进行计算机可以识别的编码,并转
导成另一种形式的表示法,最后透过解码神经网络(标号150)将其转换为前述的输出序
列(标号152),其实这就是AI即时翻译的原理。举例来说,针对中文翻译成英文,若输
入序列(标号102)为中文标题“转换模型超越过去的RNN”,透过注意力神经网络之转导
,就可以快速翻成英文标题“Transformer Model Beyond Traditional RNNs”。
为何需要编码神经网络(标号110)与解码神经网络(标号150)?对于计算机系统而言,
它们是无法读取“转换模型超越过去的RNN”这样的一段纯文字内容,因为在计算机系统
的世界中,只能读取数值型态的向量,例如“转换”一词可能就被编码神经网络(标号
110)编码成[0, 0, 0, 1, 1, 0, 1, 1]这样的数值型向量而让计算机系统读取;同理,
“模型”一词就可能被编码成[1, 0, 1, 0, 0, 0, 0, 1],其余依此类推。
以上经过编码后,可让原本计算机系统无法读取的资料型态,转换为可读取的数值型资料
,此程序称为“词嵌入”[8](word embedding),其嵌入方式可透过One-Hot encoding、
Word2Vec、Glove等算法得到。接着,“转换模型超越过去的RNN”这样的一段纯文字被
编码后,再经由注意力神经网络(标号108)的复杂数学运算,能转导成英文的“
Transformer Model Beyond Traditional RNNs ”。此外,编码神经网络(标号110)与
解码神经网络(标号150),本身也担任提取特征的工作以降低资料维度,其功能类似机
器学习中大家耳熟能详的PCA主成分分析(principal component analysis)。
到目前为止,这些都是习知的编码器与解码器处理文字或语音的方式,只有这些还不足以
让AI“聪明地”阅读长篇大论的文章,或“理解”语义并与人类互动对话。因此,本专利
在编码神经网络(标号110)内,增加一“嵌入层”或称“输入嵌入”(embedding layer
或input embedding,标号120)以执行一种“位置嵌入”(positional embedding,图1
中未标号)的数学技巧。
位置嵌入(positional embedding)
Google在本专利明确提及,透过“嵌入层”(embedding layer或input embedding,标号
120)执行位置嵌入的技巧,就可摆脱过去使用RNN或CNN等神经网络架构。
图1中的“输入嵌入”(input embedding,标号120),接收到如“转换模型超越过去的
RNN”这样的输入序列(标号102)之纯文字内容后,将该纯文字内容予以词嵌入,也就是
说,此时的“转换模型超越过去的RNN”中的每个单词,已被转换成计算机系统可读取的
数值型态的向量。更甚者,本专利的技术特征之一就是透过位置编码(positional
encoding,图1中的红字),进行“位置嵌入”(positional embedding)的数学技巧,好
用以记忆各单词的相对位置、权重与彼此间的关联性,进而提升推理能力。Google在本专
利中还特别强调,“位置嵌入”可透过sin和cos两个函数,表示为下列的二个数学式:

其中,PE表示“位置嵌入”(positional embedding), os为位置, i 为位置嵌入的
维度, dmodel为嵌入大小。这边就暂不讨论复杂的数学,不过Google在本专利中提到这
二个数学式,可以让Transformer模型在冗长的序列中作出很好的语言推理,并可广泛应
用在许多场景中。
“位置嵌入”的设计在Transformer模型中扮演重要角色,不仅可以在长篇大论中记住重
要单词的相对位置,而且可计算出所有单词之间的关联性与权重,进而产生推理能力,这
样的数学技巧,在自然语言处理的技术中显得格外重要。
自注意力机制(self-attention mechanism)
Transformer模型于本专利之独立项中,其最重要的技术特征就是“自注意力机制”,也
可以说是Transformer模型的灵魂。注意力机制并不好理解,这里先科普一下自注意力机
制的目的是什么?为何它这么重要?兹先从实际例子说明或许更容易捕捉其迷人之处。
其实所谓的“自注意力”(self-attention),其涵意从字义上即可略知一二,就是从在学
习过程中自己“注意”重要的事物。举例来说,若出现一句英文为:
The Transformer model is a deep learning model that adopts self-attention
mechanism, and it is mainly used in the fields of Natural Language Processing
(NLP) and Computer Vision (CV).
透过引入自注意力机制,就能知道文中的“it”是指“The transformer model”,而“
self-attention”就是用来描述“The transformer model”,系采用自注意力机制的一
种深度学习模型。在深度学习中,自注意力是一种用于处理序列资料的技术,举凡句子、
影片片段或任何具有时间序列特性的资料都能应用的上。在这种技术中,Transformer模
型不仅专注于处理序列中的各单词(或称元素),而且还能自动捕捉序列中各单词之间的
关联性和重要性。以这一句英文来说,透过自注意力机制会给予The transformer model
、it、self-attention较高的权重与关联性,然后特别“关注”。若再更进一步刻意将前
述英文改成以下:
The Transformer model is a deep learning architecture that utilizes a
self-attention mechanism. It differs from RNN model, and it is limited to
shorter sequences.
借此测试ChatGPT对于英文翻译成中文的理解能力,特别是Transformer模型对于二个it的
理解,其测试结果如图2所示。

图2 测试Transformer模型对于两it的理解
测试结果发现,第一个it当然指得是The Transformer model,而第二个it明确指出就是
RNN模型,而不是只单纯地直译成“它”,可见ChatGPT可以“理解”整段话的意思。这就
是自注意力机制的强项。
以上所述的工作,都揭露在本专利中Google提出的自注意力机制架构,如图3所示。这些
自注意力,都在图1中“Multi-Head Attention”(标号132、174)与“Masked
Multi-Head Attention”(标号172)进行Q(query)、K(Key)、V(Value)向量运算
,因涉及复杂的数学就不在此讨论。关于图3架构的算法如何执行自注意力机制,
Google并未在本专利全部揭露,有兴趣的读者可参考前述Google的原始论文“Attention
Is All You Need”。
不过吾人可以用简单的口诀“问、答、解”,来分别帮助理解Q (query)、K (Key)、V
(Value)的作用。再继续以“转换模型超越过去的RNN”为例,当接收到输入序列为“转换
模型超越过去的RNN”时,首先针对单词“转换”予以“词嵌入”(即编码为一种数值型
态的向量),然后再分别进行:
(1) Q (query):在阅读到“转换”一词时,会询问“转换”究竟代表何意?
(2) K (Key):根据Q (query)判断输入序列的其他位置,对于应答当下的“转换”有哪些
单词比较重要,例如模型、RNN、天气、专利、股市、…等许多选项,都是有可能影响“
转换”的真实意思。
(3) V (Value):最后Q(query)针对K (Key)的许多选项一一评分,认为模型与RNN是最可
能直接影响“转换”的意思,所以评分完成后给出一个明确的最佳解,最后将“转换”翻
译为“transformer”,而非conversion、transfer、change、switch这些单词。

图3 本专利提出的自注意力机制架构
softmax函数
对应本专利图1的“softmax layer”(标号190),用以产生softmax函数。softmax函数
在神经网络中的输出层,是一个计算简单但很重要的函数,softmax函数的作用,就是大
家常戏称ChatGPT是一直在玩的“文字接龙”,因为其背后的原理正是经由资料被正规化
(normalized)后,形成某一种机率分布,而该机率分布就是用来估测每个类别的机率预测

举例来说,当输入序列为中文的“转换模型超越过去的RNN”时,由于中文句子的最后是
深度学习中的常用名词RNN,而且句子中也出现“超越”这样的动词,因此自注意力机制
透过前述的Q (query)、K (Key)、V (Value)作用后,推测出“转换”应该有很大的机率
必须译为transformer,而非conversion、transfer、change、switch这些单词,最后就
透过softmax函数决定将transformaer予以输出。
最后,总结一下本专利的重点:
(1) Transformer模型加入自注意力机制,可使一输入序列被转导至一输出序列,不仅计
算速度加快,而且推理能力提升不少,有别于以往的RNN,所以在机器翻译和语言辨识上
获得更好的效果。
(2) 位置嵌入与自注意力机制的引入,可在冗长的输入序列中做出很好的语言推理。
(3) 本专利源自Google发表的原始论文“Attention Is All You Need”,不论专利或论
文,其被引用次数都相当多,可见其影响力之深远。
Google v. OpenAI/微软- -潜在之专利冲突
在六大高科技强权Apple/Amazon/IBM/Google/Meta/Microsoft中,彼此间互告的美国专利
诉讼,其实相对不多!但这次在聊天机器人方面,Google微软两强相遇,虽然首发由
Google的转换模型拔得头筹取得专利,可是不料竟然被微软和OpenAI超车,在第一回合角
力中大放异彩领先群雄,这当然让Google情何以堪!而既然ChatGPT系根据Transformer应
用创出,因此理论上当然不排除可能踩到Google的IP,假如检视后发现其落入专利之申请
范围,则Google是否会对微软等提告,引起高度关切,敬请期待本刊下一篇文章:狭路相
逢勇者胜

Links booklink

Contact Us: admin [ a t ] ucptt.com