速度快1000倍!DeepMind更新WaveNet用于Google助手
在2016年,Google旗下DeepMind实验室推出了WaveNet深度神经网络,在过去12个月中,DeepMind一直在努力大幅度提高模型的速度和质量,用于“生成能够产生比现有技术更好、更逼真的,语音原始音频波形”。
Google利用WaveNet技术,以英文/日文更新了Google Assistant的语音功能,可选择男性或女性。对于那些对虚拟助理有语音偏好的人来说,这是一个期待的选择。
新版本可以产生更高的波形分辨率以及比原来快1000倍的保真度。
▍计算方法
为了理解WaveNet如何改进现有技术水平,了解文本到语音(TTS)或语音合成系统如何工作是非常有用的。
这些大多数都是基于所谓的concatenative TTS,它使用大量高质量录音数据库,从多个小时的单个人声收集数据。这些记录被分割成微小的chunks,然后将其组合或连接,以形成完整的话语。
然而,这些系统可能导致不自然的声音,并且也难以修改,因为每当需要一组改变(例如新的情绪或语调)时,需要纪录全新的数据库。
为了克服这些问题,有时使用称为parametric TTS的替代模型。这个模型不需要通过使用一系列关于语法和嘴型的规则和参数,来引导计算机生成的语音来连接声音。虽然省时省力,但这种方法创造的声音不那么自然。
WaveNet采取完全不同的方法。在论文中,我们描述了一个深刻的生成模型,可以从头开始创建单个波形,每次一个样本,每秒16,000个样本,以及各个声音之间的无缝转换。
由卷积神经网络的结构生成的原始WaveNet模型
它是使用卷积神经网络构建的,该网络在大量语音样本数据集上进行了训练。在这个训练阶段,网络确定了语音的底层结构,比如哪些音调是相互依存的,什么波形是现实的(哪些不是)。
然后训练好的网络一次合成了一个样本,每个生成的样本都考虑到前一个样本的属性。所产生的声音包含自然语调和其他功能,如嘴型。它的“口音”取决于它所接受的声音,打开了从混合数据集中创建任何数量的独特声音的可能性。与所有文本到语音系统一样,WaveNet使用文本输入,来告诉它应该产生哪些字以响应查询。
使用原始模型以如此高的保真度,建立声波在计算上是昂贵的,WaveNet带来了新的曙光,但并不是可以在现实世界中部署的。
但在过去12个月中,DeepMind的团队一直在努力开发一种,能够更快地生成波形的新版本。它现在也能够大规模运行,是第一个在Google最新的TPU云基础设施上推出的产品。
新的WaveNet改进模型仍然生成原始波形,但速度比原始模型快1000倍,意味着创建一秒钟的语音只需要50毫秒。事实上,该模型不仅仅是速度更快,而且更高的保真度,能够每秒产生24,000个采样波形。我们还将每个样本的分辨率从8位增加到16位,与光盘中使用的分辨率相同。
这使得新模型根据人类听众的测试更自然的发声。例如,美式英语发音的平均得分(MOS)为4.347(以1-5的scale),人类的语音评分也只有4.667。
新模型还保留了原始WaveNet的灵活性,使我们能够在训练阶段更好地利用大量数据。具体来说,我们可以使用来自多个语音的数据来训练网络。即使在所需输出语音中几乎没有训练数据可用,也可以用于生成高质量,细微的声音。
wavenet博客:http://suo.im/3i5AkL
WaveNet论文:https://arxiv.org/pdf/1609.03499.pdf
★推荐阅读★
长期招聘志愿者
加入「AI从业者社群」请备注个人信息
添加小鸡微信 liulailiuwang