[新闻] 突破长篇上下文理解挑战,Google发布全新

楼主: doig (dd)   2019-02-02 17:53:08
1.媒体来源:
iThome
2.完整新闻标题:
突破长篇上下文理解挑战,Google发布全新自然语言理解架构Transformer-XL
3.完整新闻内文:
Transformer-XL利用片段式递回机制搭配相对位置编码设计,突破过去NLU模型对长篇文
章理解的问题
文/何维涓 | 2019-02-02发表
https://i.imgur.com/65Pd3DA.png
Google近日针对超越固定长度的上下文资料,发布全新的NLU架构Transformer-XL,并将
Transformer-XL于GitHub上开源释出,包含研究论文中用到的预先训练的模型、超参数和
程式码。现今的自然语言理解模型有一定的限制,由于上下文之间的依赖性,导致既有的
自然语言理解模型,在面对篇幅较长的上下文理解时,效果有限。
在自然语言理解研究中,通常必须使用前面的片段资讯来了解当前的讯息,称之为长期依
赖性(long-range dependence),简单来说,就是为了正确地理解一篇文章,有时候需
要参考数千个字之前的一个单词或是一个句子,大多数的研究人员用神经网络处理这项问
题时,会用门控循环网络(Gating-based RNNs)和梯度裁剪(gradient clipping )技
术,来改善长期依赖模型,但是还是不足以完全解决这项问题。
目前最好的方法是透过Google于2017年推出的NLU神经网络架构Transformers,
Transformers允许数据元(data unit)之间直接连接的特性,能够有效地撷取长期依赖
性,但是在语言建模中,Transformers目前实现的方法适用于固定长度的文章,举例来说
,一个长篇文章会被切成由几百个字符组成的固定长度的片段,每个片段再分开处理,而
这样的方法有2大限制,一是该算法无法为超过固定长度的文字篇幅建立依赖模型,二
是裁切片段的程式无法识别句子的边界,导致上下文破碎化而难以优化,这个问题就算对
长期依赖性不强的较短序列而言,也是非常麻烦。
为了解决上述的限制,Google针对超越固定长度的上下文资料,发布了全新的NLU架构
Transformer-XL,该架构包含2项技术: 片段式递回机制(segment-level recurrence
mechanism)和相对位置编码设计(relative positional encoding scheme)。
片段式递回机制是在训练的过程中,将前一个片段的计算结果修复并保存,以利在下一个
新的片段执行时重新利用,由于上下文资讯可以在片段的边界中流动,神经网络深度有几
层,这项额外的连接机制就能为依赖关系的长度提升几倍,除此之外,递回的机制也解决
了上下文破碎化的问题,提供新的片段上下文必要的标注。
而当系统要重复使用上一个片段的结果时,必须将上一个片段的编码位置,整合至新的片
段位置编码中,这样的操作会导致位置编码不连贯,为了实现片段式递回机制,因此需要
搭配相对位置编码的设计,与其他相对位置编码设计不同的是,Google是用可学习的转换
固定向量,如此一来,该相对位置编码设计能够更广泛地适用于较长的序列中。
Google研究团队实验发现,Transformer-XL比vanilla Transformer模型更能有效地理解
更长的上下文,且不需要重新计算就能处理新片段的资料,因此大幅提升自然语言理解的
效能,Google认为,该研究成果可以改善语言模型预先训练的方法、创造逼真的长篇文章
,也能协助影像和语音领域的应用开发。
4.完整新闻连结 (或短网址):
https://www.ithome.com.tw/news/128609
作者: ryanmulee (ryanmulee)   2018-02-02 17:53:00
赶快推一个免得大家以为我看不懂
作者: anper (镜中人)   2019-02-02 17:54:00
嗯嗯跟我想的差不多
作者: tetani (喵喵)   2019-02-02 17:54:00
和我想的一样 只是google先实做了
作者: jason743145 (睡不饱的阿亮)   2019-02-02 17:55:00
之前才想到,被孤狗先发表了
作者: hackfox (自家朘仔歪,嫌人尿桶漏)   2019-02-02 17:56:00
没错,跟我的理论有87%像
作者: shala (沙罗)   2019-02-02 17:57:00
其实路还很远很远
作者: Neisseria (Neisseria)   2019-02-02 17:57:00
推文卧虎藏龙 XD
作者: babyMclaren (test)   2019-02-02 17:59:00
这我妹妹昨天跟我说过

Links booklink

Contact Us: admin [ a t ] ucptt.com