[新闻] 自然语言处理标竿测试,百度打败微软、Go

楼主: pooznn (我~~~是来被打脸滴!!!)   2020-01-01 14:39:27
自然语言处理标竿测试,百度打败微软、Google
百度的预训练语言模型ERNIE,在GLUE平台一次16项自然语言处理测试中拿下第一,表现
优于Google、微软和卡内基美隆大学
iThome 文/林妍溱 | 2020-01-01发表
在最近一次自然语言处理GLUE标竿测试中,中国网络业者百度的AI预训练语言模型达到
90.1分,超越Google、微软和卡内基美隆大学登上榜首。
GLUE(General Language Understanding Evaluation)是知名的自然语言理解(NLU)多
任务标竿测试和分析平台,包含9项测试,像是听取句子中的人名和组织名,或是听句子
中的同音异形字等等。在最近一次16项自然语言处理测试中,百度的预训练(
pre-training)语言模型ERNIE拿到90.1分居冠。
其次为微软的MT-DNN-SMART(89.9)及Google T5(89.7)。阿里巴巴的ALICE DAMO NLP
和卡内基美隆大学的XLNet以89.5 同列第4名,脸书的RoBERTa则名列第8。微软另二个模
型(FreeRoBERT MT-DNN –ensemble)也挤进前十。GLUE真人测试基准得分为87.1分(第
11名)。
百度去年推出的ERNIE (Enhanced Representation through kNowledge IntEgration)
模型是一种连续型预训练框架,经由连续给予模型多任务学习(multi-task learning)
方法,每当引入新任务时,该框架可在学习该任务的同时不遗忘之前学过的资讯,达到渐
进式学习与建构的目的。百度今年初推出ERNIE 1.0,7月再升级为2.0。
百度的ERNIE是从Google BERT获得灵感(两者都是取自“芝麻街”的主角名字)。BERT利
用名为遮罩(masking)的技巧,随机隐藏文句中15%的字再试图预测剩下的字。这种方法
大幅推升自然语言处理的能力。但BERT主要是基于英文。百度则根据中、英文的差异,为
ERNIE模型加入中文需要的特有算法。
在英文之中每个字都有独立意义。例如波士顿(Boston)、美国(America)。但在中文
,如果抽出“波”或“美”独立一个字,就完全和“波士顿”或“美国”不同意义。
百度团队于是提出动态边界遮罩算法(Dynamic Boundary Masking),发展出隐藏中文
字串、而非单一字的遮罩法。这项算法也能分辨有意义和无意义的随机字串的不同。
ERNIE在理解中文组成,以及预测中文漏字的能力比外国模型来得强,用于中文翻译和在
文件中汲取资讯上相当有用。
但百度表示,他们发现ERNIE以意义为基础的理解能力,除了中文外,理解及预测英文文
句也比用单字使用统计为基础的模型来得好。
ERNIE预训练技术已被用于百度多项产品,包括百度搜寻、小度音箱、资讯推荐等。百度
ERNIE 2.0的论文已被国际人工智能顶级学术会议AAAI-2020收录,预定明年2月7日到12日
在美国纽约举行及发表。
https://www.ithome.com.tw/news/135127

Links booklink

Contact Us: admin [ a t ] ucptt.com