LSTM网络结构

1.介绍

假设词向量长度为128，隐含层神经元个数为256。LSTM中引入3个门，即输入门、遗忘门、输出门；及其他组件：候选记忆细胞、记忆细胞。

2.时间t时候：各个组件（3个门+候选记忆细胞、记忆细胞）

LSTM网络结构
如上图所示，对于每个组件有：

(1)

输入门： $I_t$
$I_t = \sigma (X_tW_{ih}^I+H_{t-1}W_{hh}^I+b_{ih}^I)$

遗忘门： $F_t$
$F_t = \sigma (X_tW_{ih}^F+H_{t-1}W_{hh}^F+b_{ih}^F)$

输出门： $O_t$
$O_t = \sigma (X_tW_{ih}^O+H_{t-1}W_{hh}^O+b_{ih}^O)$

候选记忆细胞： ${\widetilde{C_t} }$
$\widetilde{C_t} = \tanh (X_tW_{ih}^{\widetilde{C_t}}+H_{t-1}W_{ih}^{\widetilde{C_t}}+b_{ih}^{\widetilde{C_t}})$
其中， $X_t$ 为长度为128的向量； $W_{ih}$ 为128x256的矩阵； $W_{hh}$ 为256x256的矩阵； $b_{ih}$ 为长度为256的向量；以上每个组件的时间 $t$ 结果都是长度为256的向量（输入都是 $X_t$ ，最后都是加上 $b_{ih}$ 后，经过**函数）。

(2)

记忆细胞： ${C_t }$
$C_t = F_t\odot C_{t-1} + I_t \odot \widetilde{C_t}$
其中， $\odot$ 是元素乘法符号，即左边2向量的每个元素相乘，右边2向量的每个元素相乘，都是256的向量，然后结果相加为新的256向量（时间 $t$ 时候， ${C_t }$ 结果是长度为256的向量）。记忆细胞由：遗忘门 $\odot$ 上一个记忆细胞、输入门 $\odot$ 候选记忆细胞决定。

通过输出门控制从记忆细胞到隐藏状态的信息流动：
$H_t = O_t\odot \tanh C_{t}$
隐含层由：输出门 $\odot$ tanh 记忆细胞决定。

3.补充：多层的lstm及pytorch中的lstm

（1）多层的lstm：
以上为时间 $t$ 时候的计算流程，实际上，LSTM的输出为所有时间步的结果 $h_0,h_1,...,h_t$ ，并且上面显示的是一个完整的lstm的过程的时间步t步骤，如果走完所有t则是一层的lstm。而多层的lstm指的是，假设是2层：在每个时间步t时候，第1层的输出结果都是作为输入进入第2层的lstm（即上图的虚线部分是第1层的输出结果，注意区别：上一个时间步t-1的情况），而网络最终的输出为第2层lstm的输出。
（2）在pytorch中的lstm：
nn.LSTM(词向量长度, 隐含层神经元个数, dropout（发生在 $h_t$ 处，并且最后一个时间t不发生）, num_layers（lstm的层数）,batch_first=True（批量放在第1维度，这样输出的数据批量在第一维度）)，并且以上的四个组件（输入门、遗忘门、输出门和候选记忆细胞）的参数等，如： $W_{ih}$ =128x256的矩阵被统一为一个，但是长度为原来的四倍，即 $W_{ih}$ =128x1024=128x[256x4]。

参考
http://zh.gluon.ai/chapter_recurrent-neural-networks/lstm.html
https://discuss.pytorch.org/t/num-layers-in-nn-lstm/11664/3

1.介绍

2.时间t时候：各个组件（3个门+候选记忆细胞、记忆细胞）

3.补充：多层的lstm及pytorch中的lstm

相关推荐