LSTM
LSTM全名是Long Short-Term Memory,长短时记忆网络,可以用来处理时序数据,在自然语言处理和语音识别等领域应用广泛。和原始的循环神经网络RNN相比,LSTM解决了RNN的梯度消失问题,可以处理长序列数据,成为当前最流行的RNN变体。
RNN
也就是
LSTM把RNN的 neural (图中的A)换成如下形式
单输入变成4输入,3个门由信号控制,sigmoid后信号在0-1之间
来看个整体结构
元件说明
公式推导如下
Forget Gate:
Input Gate:
Update Memory:
Output Gate:
参考
【1】 谷歌大脑科学家亲解 LSTM:一个关于“遗忘”与“记忆”的故事
【2】 一步步教你理解LSTM
【3】完全图解RNN、RNN变体、Seq2Seq、Attention机制
【4】Understanding LSTM Networks