您的位置: 首页 > 文章 > 平安-低质量语料说话人合成问题第一次讨论（私有）

平安-低质量语料说话人合成问题第一次讨论（私有）

分类: 文章 • 2025-01-09 16:27:34

这些比较敏感了，所以归类为私有博客吧，能看到的各位也自己看看就好哈~

问题陈述

由两年前3000句话，自己录制的，不那么标准，现在想借助别的数据集，以及技巧来合成高质量他的声音

解决方案1

假设

3000句不是有噪声的差，而是波动性差，也就是可以人工选取大约300句高质量的满足2020标准的TTS语料
一边让同事帮忙选，一边拿比如标贝的私有高质量数据集来模拟，抽取300句，如果它可以，则原问题也可以

方案

手中有的所有的高质量单说话人语料+300句公司高质量预料，比如D:\Maybe-数据集-赵老师-私有
训练Multi-Speaker Tacotron，最简单的one-hot speaker embedding就可以
Vocoder是个头疼的事情

解决方案2

假设

没那么容易挑选出独立的300句
这3000句话更多的提供音色信息，该任务接近于VC

借鉴的方案

方案本身也挺好，借鉴的Google的，是为人轻声唱歌配上伴奏

平安-低质量语料说话人合成问题第一次讨论（私有）

平安-低质量语料说话人合成问题第一次讨论（私有）

方案

有很多，但没讨论具体的，之后再说吧