Tacotron2--attention

  • 编码器:双向RNN,能保证感知到前向和后向的信息

    • Tacotron2编码器使用三层卷积赋予了神经网络类似于N-gram感知上下文的能力。

    • 使用卷积的好处,可以捕获长时依赖,也使得卷积的使用使得模型对不发音字符更鲁棒(know中k)

    • 编码器公式:

      Tacotron2--attention

  • 注意力机制:

    • 一般的注意力机制:

      • pic:

        Tacotron2--attention

    • 基于内容的注意力机制:

      • 实质上就是把上一个解码器的输出和相应的输入元素连接

        Tacotron2--attention

    • 基于位置的注意力机制:

      • 实质上就是对之前注意力权重Ai-1经过卷积而得到的位置特征和当前的隐状态进行相加

        Tacotron2--attention

    • 混合注意力权重:

      • 把基于内容和基于位置和当前输入一起相加

      • 具体是把Si-1是上一个时间步的解码器状态,Hj是当前编辑器状态,Fij把上一个注意力权重卷积后的位置特征

        Tacotron2--attention

  • Tacotron2注意力机制:

    • Si是当前解码器隐状态,偏执b初始化为0,位置特征fi使用累加注意力权重Cai卷积而来。

    • 使用加法累计不使用乘法累计的原因,累加注意力权重,可以是注意力权重网络了解他已经学得的注意力信息,使得模型在序列中持续进行避免重复未预料的语音。

    • 使用缩减因子(reduction factor)即每一个解码步仅允许预测rr(缩减因子)Mel谱帧,能够有效加速计算,减小内存占用。