平安-低质量语料说话人合成问题第一次讨论(私有)
这些比较敏感了,所以归类为私有博客吧,能看到的各位也自己看看就好哈~
问题陈述
由两年前3000句话,自己录制的,不那么标准,现在想借助别的数据集,以及技巧来合成高质量他的声音
解决方案1
假设
- 3000句不是有噪声的差,而是波动性差,也就是可以人工选取大约300句高质量的满足2020标准的TTS语料
- 一边让同事帮忙选,一边拿比如标贝的私有高质量数据集来模拟,抽取300句,如果它可以,则原问题也可以
方案
- 手中有的所有的高质量单说话人语料+300句公司高质量预料,比如D:\Maybe-数据集-赵老师-私有
- 训练Multi-Speaker Tacotron,最简单的one-hot speaker embedding就可以
- Vocoder是个头疼的事情
解决方案2
假设
- 没那么容易挑选出独立的300句
- 这3000句话更多的提供音色信息,该任务接近于VC
借鉴的方案
方案本身也挺好,借鉴的Google的,是为人轻声唱歌配上伴奏
方案
有很多,但没讨论具体的,之后再说吧