是否可以在TTS中发出用户的声音而不是内置语音?

问题描述:

我们有文本到语音功能,其中有一组声音和不同的音高,男性/女性的声音。 同样,我们在许多设备和PC中都有语音识别功能。 系统是否有可能使用用户的声音说话而不是内置的默认声音?是否可以在TTS中发出用户的声音而不是内置语音?

虽然它在理论上是可能的,但它很可能是不切实际的。基本上有两种类型的人造声音:全合成和基于样本。

  1. 如果您的TTS语音是完全合成的,那么它只能受某些参数(如音调和速度)的影响。您最好的方法是尝试并估计输入语音中的所有参数。
  2. 如果您的TTS语音是基于样本的,那么您可以尝试从用户收集足够的语音以构建一个全新的数据集。通常你需要每个可能的diphone,这可能需要很长时间来收集,除非你有用户说出一些专门收集这些文本的文本。然后,您的引擎需要能够接受语音部分,并从中构建新的语音。

在这两种情况下,结果仍然不会很令人信服,除非您还可以模仿用户的韵律和特定发音。如果您的TTS和识别模块不是由您自己开发或可扩展的,那么您很可能运气不佳,因为大多数软件不允许在运行时建立新的声音。