是否可以在TTS中发出用户的声音而不是内置语音？

问题描述：

我们有文本到语音功能，其中有一组声音和不同的音高，男性/女性的声音。同样，我们在许多设备和PC中都有语音识别功能。系统是否有可能使用用户的声音说话而不是内置的默认声音？是否可以在TTS中发出用户的声音而不是内置语音？

答

虽然它在理论上是可能的，但它很可能是不切实际的。基本上有两种类型的人造声音：全合成和基于样本。

如果您的TTS语音是完全合成的，那么它只能受某些参数（如音调和速度）的影响。您最好的方法是尝试并估计输入语音中的所有参数。
如果您的TTS语音是基于样本的，那么您可以尝试从用户收集足够的语音以构建一个全新的数据集。通常你需要每个可能的diphone，这可能需要很长时间来收集，除非你有用户说出一些专门收集这些文本的文本。然后，您的引擎需要能够接受语音部分，并从中构建新的语音。

在这两种情况下，结果仍然不会很令人信服，除非您还可以模仿用户的韵律和特定发音。如果您的TTS和识别模块不是由您自己开发或可扩展的，那么您很可能运气不佳，因为大多数软件不允许在运行时建立新的声音。