※ 引述《Mayfly (Baccano)》之铭言:
: 老实说我最近也偶尔会在B站上听一些AI代唱
: 就是让ACG人物的AI语音唱某些乐曲,比方说草神唱大悲咒什么的
: 对岸最近有个梗,什么萨菲罗斯男人中的男人
: 就是用AI编曲演唱歌颂萨菲罗斯什么的
: 还有个游戏直播主,他之前发了个影片鉴赏那些用他的声音为免洗游戏打的广告
: 只能说,当初大概也很少人预测到,最先被AI打成手工业者的,竟然是创意产业和流行设计
: 或许也是侧面表现了现代人类的精神生活有多空泛吧……
准确来说是替代了部分创意、流行的生产步骤,AI只是降低制造的门槛。
不然像...
萨菲罗斯男人中的男人、欧金金是奶茶...
不管谁来都不会觉得这玩意是AI想出来的
=============================================================
配音领域的话,对岸常用的3个开源项目
Bert-VITS2、GPT-SoVITS、Fish-speech
至于唱歌方面的我没太研究,不过据我所知唱歌AI目前还是比较粗糙的
Bert-VITS2
去年就有了,开源版预训练模型无法用来推理
必须使用者自己收集素材,然后自己炼丹。
GPT-SoVITS
还是要自己去炼丹,原始项目没法直接推理,
不过他的LLM参数量太小,常常出现幻觉。
Fish-speech
原理跟第上面的差不多,
不过重制了声码器,然后把LLM的参数量堆到1B,
初步解决比较常见的多音字发音问题。
比较鸡贼的是,这玩意有做小样本推理功能,
只要提供一个参考音频,就能还原个7788,
不过要达到最佳效果还是要自己重炼声码器。
我这几个月都拿这些听书,体验下来....
目前在自己有炼丹能力的情况下,音色跟韵律可以做到非常出色的还原。
但配音还需要情感演绎之类的功能,这点目前的TTS技术,
不管是商用项目还是开源项目,都远远达不到预期。
想要达到感情也很匹配的程度,需要大量人工进行微调,
如果是这样的话,成本还是请真人配音比较便宜。
目前这技术,可以拿来整活、做二创、自己练著玩之外,
现阶段要拿来直接给游戏、动画、配音,目前差距还很大。
除非你用人工干预一句一句精调。
记得yt上有个日本搞得很闹的AI 安倍就是用BV2生成的