OpenAI发布可自创歌曲的机器学习框架Jukebox
https://www.ithome.com.tw/news/137371
文/李建兴 | 2020-05-04发表
Jukebox学习自网络120万首歌,能够自创各种类型的歌曲以及歌词,
但目前创作的成果主要仍为英文歌
非营利人工智能研究组织OpenAI发布了最新的人工智能应用Jukebox,
这是一个可以产生各种类型和风格歌曲的神经网络,OpenAI现在将模型权重和程式码,
以及用于探索生成样本的工具发布在GitHub上,供其他研究人员进一步深入研究。
在早前就有不少音乐自动生成的研究,最先出现的是音符产生器,
生成可以弹奏的乐谱,
但是这种方法虽然能够安排音符出现的时机、音高、速度和演奏乐器,
制造出巴哈圣咏、 复音音乐等作品,但是其具有不少限制,无法捕捉人声,
以及其他音乐细节, 像是音色、力度和表现性。 另一种音乐自动生成的方法,
则是直接以音讯层级生成音乐,但这种方法也不容易, 光以16位元44 kHz的CD音质
,产生典型4分钟的歌曲, 就需要超过一千万时步(Time Step),研究人员提到,
这是要在音讯层级产生音乐的一大挑战,相比OpenAI Five在每场Dota游戏中,
才花费数万时步而言,千万时步是一个很大的前进,因此要学习音乐的高阶语义,
模型需要能够处理极长的相依关系。 OpenAI提到,
他们之所以会开始进行人工智能在音乐上的应用,
因为这是生成模型当前的界限,OpenAI之前的相关研究MuseNet,
探索了大量MIDI资料合成音乐的方法,而现在他们从原始音讯中,
让模型解决高多样性和超长结构的问题,且特别的是,
在原始音讯域无法容忍发生在短期、中长期和长期时序的错误。
OpenAI研究团队使用自动编码器解决这个问题,编码器会移除无关的讯息位元,
将原始音讯压缩成较低维的空间,而新模型会在压缩空间中产生音讯,
然后将其采样回原始音讯空间。 为了训练这个模型,
OpenAI在网络上抓了120万首歌组成新的资料集, 其中有60万首是英文歌,
并配对LyricWiki的歌词和元资料, 歌曲元资料包含艺术家、专辑类型和歌曲年份,
还有与每首歌曲相关联的心情和播放列表关键字,以32位元44.1 kHz的原始音质,
并随机降混(Downmix)左右声道产生单声音讯,达到资料增强的目的。
研究人员提到,虽然Jukebox无论是在音乐品质、连贯性、音讯样本的长度,
以及对艺术家、类型和歌词的适应能力都往前一大步,
但Jukebox所创建的音乐与人类的作品相比,仍是天壤之别。
虽然Jukebox产生的歌曲, 在局部具有连贯性,可产生遵循传统的和弦模式,
甚至表现出深刻的独奏, 但是却不会有像是重复的副歌这类大型的音乐结构。
而且由于受Jukebox所使用的采样技术影响,采样的过程非常缓慢,
约要9个小时才能渲染出一分钟的音讯,
所以现在的成果还不能放在交互式的应用程式中。
此外,Jukebox的训练资料集,主要是西方音乐,歌词的部分都是英文,
将来OpenAI希望可以将Jukebox扩展应用更多地区的歌曲。
除了研究成果之外,这项研究在推特上受到讨论的另一个点,
在于版权问题, 因为Jukebox自动产生各种风格的歌曲,
这些歌曲可能包含知名歌手的声音以及相似风格的旋律,因此OpenAI也被质疑,
在把这些歌曲作为训练资料集之前,是否有取得适当的授权,但有人则认为,
这可能要讨论用来训练人类跟训练机器人原始资料的不同之处。