平安-低质量语料说话人合成问题第一次讨论(私有)

这些比较敏感了,所以归类为私有博客吧,能看到的各位也自己看看就好哈~

问题陈述

由两年前3000句话,自己录制的,不那么标准,现在想借助别的数据集,以及技巧来合成高质量他的声音

解决方案1

假设

  1. 3000句不是有噪声的差,而是波动性差,也就是可以人工选取大约300句高质量的满足2020标准的TTS语料
  2. 一边让同事帮忙选,一边拿比如标贝的私有高质量数据集来模拟,抽取300句,如果它可以,则原问题也可以

方案

  1. 手中有的所有的高质量单说话人语料+300句公司高质量预料,比如D:\Maybe-数据集-赵老师-私有
  2. 训练Multi-Speaker Tacotron,最简单的one-hot speaker embedding就可以
  3. Vocoder是个头疼的事情

解决方案2

假设

  1. 没那么容易挑选出独立的300句
  2. 这3000句话更多的提供音色信息,该任务接近于VC

借鉴的方案

方案本身也挺好,借鉴的Google的,是为人轻声唱歌配上伴奏

平安-低质量语料说话人合成问题第一次讨论(私有)

平安-低质量语料说话人合成问题第一次讨论(私有)

方案

有很多,但没讨论具体的,之后再说吧