Tacotron2--attention
-
编码器:双向RNN,能保证感知到前向和后向的信息
-
Tacotron2编码器使用三层卷积赋予了神经网络类似于N-gram感知上下文的能力。
-
使用卷积的好处,可以捕获长时依赖,也使得卷积的使用使得模型对不发音字符更鲁棒(know中k)
- 编码器公式:
-
-
注意力机制:
-
一般的注意力机制:
-
pic:
-
-
基于内容的注意力机制:
-
实质上就是把上一个解码器的输出和相应的输入元素连接
-
-
基于位置的注意力机制:
-
实质上就是对之前注意力权重Ai-1经过卷积而得到的位置特征和当前的隐状态进行相加
-
-
混合注意力权重:
-
把基于内容和基于位置和当前输入一起相加
-
具体是把Si-1是上一个时间步的解码器状态,Hj是当前编辑器状态,Fij把上一个注意力权重卷积后的位置特征
-
-
-
Tacotron2注意力机制:
-
Si是当前解码器隐状态,偏执b初始化为0,位置特征fi使用累加注意力权重Cai卷积而来。
-
使用加法累计不使用乘法累计的原因,累加注意力权重,可以是注意力权重网络了解他已经学得的注意力信息,使得模型在序列中持续进行避免重复未预料的语音。
- 使用缩减因子(reduction factor)即每一个解码步仅允许预测rr(缩减因子)Mel谱帧,能够有效加速计算,减小内存占用。
-