看了中国点名公司64位元语音库开发历程的心得
心得:
1. 可能这是做面相盲人的APP的公司吧,完全知道语音库对盲人的重要性,
上次appstore销售的app描述与现实不符的事件,就让我觉得苹果(中文部分)完全不了解;也不想了解语音库对盲人的重要性。
2. 我对语音库的期望从来就不是;未来也不会是所谓的情感,我希望的是平铺直叙;不带风向。
3. android在TTS这块有个优势。
android TTS的街口是开放的,所以如果不满意google或手机厂提供的还可能可以用其他公司的产品。
IOS是不开放的,所以苹果不给的你也无法要,
向这个
https://www.applevis.com/forum/ios-ipados/toms-voice-quality-ios-16
你的选择也只有苹果给的vocalizer, eloquence与siri(除了voiceover以外的APP无法调用)
所以有问题就等苹果修吧,反正也没其他选择。
4. 当然如果是常用英文的人苹果在这块还是有优势,
因为苹果在IOS16引入了eloquence语音了,在这之前android是占优势的,
因为在当时只有android有办法使用eloquence语音;苹果无法,
但以目前来看,到android14后这块就变成苹果占优势了,
因为eloquence语音的APK是32位元的。
5. 我android语音喜欢用科大讯飞的,
但讯飞语记有段时间前就不知道为什么从play商店上不见了,不知道是不是因为32位元的关系,
如果是的话android14后使用科大讯飞可能会有变量。
不过google TTS也有极大的进步了,所以这点好像还好。
中国点名公司64位元语音库开发历程
“64
位元语音库的主要问题在哪儿呢?其实就是朗读效果和跟手速度。就朗读效果而言,语音技术发展到今天,厂商们一直在追求的是更加自然、流畅的语音效果。然而,这种效果与读屏所迫切需要的效果却有所不同。语音库追求的效果是自然,逼真,接近真人,而读屏软件所追求的效果首当其冲是流畅,自然度方面,平铺直叙就好,最重要的原因是在加快朗读速度以后能够不损失发音品质。我们拿到的第一个版本,当调整到一个比较慢的发音速度时,朗读效果确实比之前的语音库要更接近真人一些,可当速度被加快以后,声音就没法听了。抖动、丢字、爆音、停顿不正常、发
音奇怪等问题层出不穷,实在是不能用。
再说跟手速度,就更是一个要命的问题。如果说语音厂商在效果追求方面多多少少还和我们有一些共同点,而在跟手速度方面,就完全只有靠我们自己。因为语音库在发展过程中,可以说,几乎从来没有追求过跟手速度这个东西。为什么呢?因为这东西除了读屏软件以外,其他领域几乎没有需求。所谓跟手速度,就是指我们从萤幕上触摸访问一段文本,语音库要以极快的速度为我们做出回应,这样才能确保我们操作的流畅性。可是在其他领域呢?导航、虚拟主播、或者一些带语音功能的软硬件,比如电梯、柜台软件设备,他几乎不需要追求极致的回应速度,甚至延迟个一秒
左右也不是什么不能接受的事儿。这样,它只需要追求自然度就好,发音如果接近真人,那就再好不过了。而为了达到更加逼真的朗读效果,语音需要更长的时间对文本进行处理,这就损失了我们读屏软件所必须的跟手速度。从这点来说,在技术发展的过程中,语音库的自然度提升,和我们所需要的回应速度完全就是背道而驰的。
就是这样的局面,开始的时候我们也是一筹莫展。头脑风暴组在体验完前几个版本后将结果陆续回馈到开发那边,工程师鼓捣了一段时间,发现实在难搞,开始挠头了。说算了吧,不然就简单集成一个 64 位元语音库先上传到应用商店,用户实在不习惯,我们在提供个老 32 位元的语音库TTS安装包,可以让使用者换回原来的语音库。开会的时候讨论,老板说不行,你这不是长久之计,还得想办法。然后我们的工程师就像闭关修炼一样,开始去研究了,长久没消息,我们都开玩笑说他是不是搞不出来,准备辞职跑路了。
时间就这样来到了八九月份,慢慢开始出版本了,体验下来还是不行。回应速度上来了,声音变了,在什么手机上听起来都扁扁的,速度快了字头字尾都一片模糊,累耳朵。这段时间,我们换了好几种开发方案,不知道多少次把原来做的推翻了重来,但不行还是不行,想想,干脆找讯飞做个定制好了,结果人讯飞根本不知道我们说的声音太扁了、小燕的声音像是感冒了是啥意思,拉了个群讨论,起初每次开会都跟在说玄学一样,人家gat不到我们的点,也不理解为什么我们对回应速度有那么高的要求。
好在经过一段时间磨合以后,沟通终于慢慢变的有效了,讯飞方面还是理解了我们的诉求。开始站在视障者操作读屏软件的角度改善语音库的速度,理解了读屏软件的操作逻辑,为什么视障者对速度如此敏感等问题。又进一步,从频率、响度等方面改善语音库发音不清晰的问题,才让我们得到了一个清晰的语音库。
这个过程非常艰难,因为据讯飞的工程师说,之前的语音库并不是他们做的,现在要真正理解这些问题其实很难,但因为长期的沟通,也终于让他们彻底理解了视障者的使用场景,甚至改变了他们的一些偏见和认知误区。例如,最初在他们看来语音最重要的是朗读清楚,速度加快以后的朗读效果并不在考虑范围之内。但沟通以后他们能够理解,视障者对朗读速度的需求是很多明眼人难以想像的,因为在视障者的使用场景中,我们所使用的语速往往是他们根本难以听清的。但要他们完全将语音库做成之前的样子,那还是不现实的,不过能做多少算多少吧,让他们解决一部分,
剩下的我们慢慢啃,这才一点一点让语音库听上去明显好了起来。直到我们对外正式拿出版本,音色和音质上几乎已经和以前的一样了,而回应速度方面相对于旧版本还有了相当不错的提升。
这里面还有个插曲,讯飞提供的新版语音库当中有几个角色,除了普通话外,还有英文和四川话、东北话等地方口音的,其实挺好玩儿的。但听来听去,音质实在太差了,而且还多占用了近 10
MB的存储,我们响了想,又给拿掉了。都搞到这个程度了,能保证我们原有的发音角色一个不少,并且发音品质不受影响,那还是见好就收吧。不过还是希望以后能优化出更多的高品质发音角色,从而满足我们对好语音库的期盼。虽然现在来看的确不行,但谁说朗读效果和回应速度就永远都会像现在这样不能共存呢?说不定哪一天,无论怎样调整发音速度,也能无限接近真人呢?科技这东西最擅长的,本身就是把不可能变为可能,就像十年前我们始终无法想像,有一天,AI语音会听起来如此自然一样,大家一起期待吧。”