※ 引述《defeatshame ((\アッカリ~ン/(阿卡林))》之铭言:
: Skype中文即时口译功能12月上市,10种语言会话用中文说给你听
: 准备好迎接语言交流无障碍的世界了吗?由微软营运暨行销事业群副总经理周旺暾
: 证实,Skype Translator将在2014年12月正式上市,且届时将支援正体中文。
这进度和马副院长周五的演讲不太一样啊.
但因周五那场不是公开演讲, 笔者不方便 "爆卦".
另, 笔者怀疑中文版是否已经成熟了.
因为微软 (MSDN) 官网上有许多中文文件, 是用微软自己的系统译出来的,
而其中仍有不少明显的错误. 不对照英文的话, 是看不懂意思的.
(例如有一篇类神经网络的文件, 出现类似 "作者进入新的领域" 字样, 令人完全看不懂.
去找出英文原版, 才知道 "领域" 的原文是 "column", 当下应翻成 "字段".)
: 另外,其中还有一项人性化的设计,Skype Translator会根据每个人的声音,
: 模拟合成出翻译语音的声音,目标期望做到就像是本人使用不同语言在说话。
口音模拟倒不是顶难的技术.
整个系统的难处在于翻译引擎核心.
: Skype Translator此时能够做到即时翻译各国语言,有2项关键要素齐全,
: 第一、大资料时代能分析的资料比过去更多,
: 第二、微软亚洲研究院常务副院长马维英认为,云端架构提供理论上无限的
: 运算资源,让机器学习(Machine Learning)的数学模型能够有足够的
: 训练(Training),能使结果更接近理想的答案。
笔者的看法不同.
笔者认为要改良算法才是关键, 大数据不是关键.
微软第一版的翻译引擎花了六个月完成, 是统计式的.(主持人是台湾人)
如果没有把统计引擎改良, 例如加入类神经算法, 那么更多的数据并没有用.
统计式的引擎, 大约只需要 150 万 ~ 300 万个例句给系统学习, 其表现就到顶峰了.
更多的例句只会造成干扰 (称为噪声).
注:
翻译引擎主要分为四类,
1.规则式 (最早问世)
2.统计式 (打败了规则式)
3.类神经式
4.混合式