1.媒体来源:
数位时代
2.完整新闻标题:
百度开发语音识识系统DeepSpeech,嘈杂环境下识别率超Google、苹果
3.完整新闻内文:
不久前,百度的首席科学家吴恩达(Andrew Ng)在接受采访时曾谈到了百度最近人工智
慧的进展情况,强调了近期百度重点是攻关语音识别。现在他们已经在这方面取得了突破
。
这项成果的名字叫做Deep Speech,是一款采用深度学习技术的语音识别系统系统。其独
特之处在于,它可以在饭店等嘈杂环境下实现将近81% 的辨识准确率。
81%的准确率听起来似乎不算高。但是同样环境下,其他的商业版语音识别API,包括Bing
、Google以及Wit.AI等的最高识别率也只有65%。相比之下这就算十分突出的表现了。而
且按照吴恩达的说法,这样的结果依然低估了Deep Speech与其他语音识别系统的准确率
差异,因为Deep Speech进行比较时还把其他语音识别系统那些返回空白字符串的结果排
除在外了。而且Deep Speech跟顶级的学术型语音识别模型(基于流行的数据集Hub5'00建
模)相比也高出9个百分点。
百度首席科学家吴恩达称尽管这还只是一项研究,但是公司正在考虑将它集成到供智慧手
机和Baidu Eye之类的可穿戴设备使用的语音识别软件当中。而且百度还在开发与Amazon
Echo类似、集成有语音助理的家电产品,名字叫做CoolBox。除此以外,百度在开发的智
慧自行车当然也能利用Deep Speech技术。
Deep Speech 的基础是某种递归神经网络(RNN),这种递归神经网络经常被用于语音识
别和文本分析。
但是Deep Speech 的成功主要得益于一个长达10 万小时的语音数据训练集。这是百度人
工智慧实验室团队用新颖的办法在嘈杂环境下建立的。其过程大致是这样的。首先百度收
集了7000 小时的语音会话数据,然后再将这些语音文件与包含有背景噪音的文件合成到
一起,最后形成约10 万小时的训练集。这些背景噪音包括了饭店、电视、自助餐厅以及
汽车内、火车内等场景。相比之下,Hub5'00 的数据集总共只有2300 小时。
当然,这么庞大的数据,大多数系统都不知道如何去处理。吴恩达表示,Deep Speech的
成功很大程度上要取决于百度规模庞大的基于GPU的深度学习基础设施。GPU(图形处理器
)往往是偏数学型计算的首选。许多深度学习系统都采用GPU避免通信瓶颈(不过微软的
深度学习系统Adam却走了不同的路线),但是像百度这样大规模的设施却是少见的。
百度的另一大改进,是对这个庞大的数据集采用了点到点的深度学习模型,而不是标准的
、计算代价高昂的声学模型。传统上一般都会把语音识别分别为多个步骤,其中一步叫做
语音调适,但是百度却不做这一步,而是给Deep Speech 的算法提供大量的数据,然后让
它去学习所有需要学习的东西。这种做法除了收获了准确率以外,还显著减少了代码库的
规模。
这项研究是吴恩达领导的百度人工智能实验室多位研究人员的努力成果,论文发表在康乃
尔大学图书馆的arXiv.org网站上,感兴趣的可到此处下载。
4.完整新闻连结 (或短网址):
http://www.bnext.com.tw/article/view/id/34774
5.备注: