https://ec.ltn.com.tw/article/breakingnews/4310639
Meta发表AI模型 可转换1100种语言
2023/05/23 15:58
https://img.ltn.com.tw/Upload/business/page/800/2023/05/23/4310639_1.jpg
Meta发表MMS模型,扩展文字转语音及语音转文字技术的应用范围。(业者提供)
〔记者徐子苓/台北报导〕世界上许多语言正面临消失的危机,Meta今(23日)发表一系
列的AI模型,可转换超过1100种语言成语音或文字,Meta还透露训练模型的秘诀是使用《
圣经》资料,未来将开源这项技术的原始码及模型。
Meta的大规模多语言语音(Massively Multilingual Speech,MMS)模型,扩展文字转语
音及语音转文字技术的应用范围,从最初的100种语言,至今已可转换超过1100种语言,
还能够辨识超过4000种口语语言。
Meta表示,这项技术已有许多应用案例,从VR、AR至讯息服务,不仅能够使用偏好的语言
操作,更可理解每个人的声音。Meta将开源这项技术的原始码及模型,让研究社群能够以
现有的工作成果为基础继续开发,一同保存全球的语言,并拉近人们之间的距离。
Meta也解释如何训练语言模型,过去最大型的语音数据库最多仅涵盖100种语言,因此开
发此技术所面临的第一个挑战就是“蒐集数千种语言的语音训练资料”。为了克服这项挑
战,Meta使用已翻译成多种语言、译文已被广泛阅读及研究的宗教经典,例如《圣经》,
作为语言的文字训练资料。
圣经译文有多种语言的公开录音档,作为大型多语言语音模型计画的一部分,Meta创造的
资料集,蒐集超过1100种语言的《新约圣经》有声读物资料集,平均为每种语言提供32小
时的语音训练资料,后续又加入其他未标注的基督教有声读物后,可用的语言训练资料已
涵盖超过 4000种语言。
虽然资料集收录的声音以男性居多,但Meta发现,测试成果显示,不论是男性或女性的声
音,此语音模型皆能同等准确地辨识。此外,上述的语言训练资料大多为宗教相关的内容
,但Meta分析显示,这并不会使模型倾向于生成出更多的宗教性质的语言。
Meta表示,将持续扩增大规模多语言语音模型的涵盖范围,以支援更多语言的转换及辨识
,并努力克服现有语音技术难以处理方言的挑战。