深度学习-LSTM与GRU的简单理解

前边我们讲了关于CNN的理解,但是CNN并没有以及能力,所以只能处理一种特定的视觉任务,没法根据以前的记忆来处理新的任务。

循环神经网络RNN(Recurrent Neural Network)的提出便是基于记忆模型的想法,期望网络能够记住前面出现的特征,并依据特征推断后面的结果,而且整体的网络结构不断循环,因而得名循环神经网络。循环神经网络目前使用最多的两种变式:LSTM和GRU。

传统RNN内部结构:

深度学习-LSTM与GRU的简单理解

 

LSTM:

LSTM是Long Short Term Memory Networks的缩写,按字面翻译就是长的短时记忆网络,从字面意思知道它解决的仍然是短时记忆的问题,只不过这种短时记忆比较长,能在一定程度上解决长时依赖的问题。

抽象表示:

深度学习-LSTM与GRU的简单理解

其中每一个单独称作为细胞cell,每个cell中包含记忆单元,遗忘门,输入门,输出门。

 

具体的内部结构为:

深度学习-LSTM与GRU的简单理解

 

该部分为记忆单元,存储cell中的记忆信息,没到达一个cell更新一次。

深度学习-LSTM与GRU的简单理解

 

遗忘门,历史信息的遗忘程度,因为经过sigmoid函数,结果为0~1,其中0代表全部忘记,1代表全部记住。网络具体要保留多少记忆是由前一时刻的输出和这一时刻的输入共同决定的。

深度学习-LSTM与GRU的简单理解

 

输入门,将当前cell中的信息选择性的保存到记忆单元中去。

深度学习-LSTM与GRU的简单理解

 

经过遗忘门和输入门,记忆单元的信息更新已经完成。

深度学习-LSTM与GRU的简单理解

 

输出门,作为该cell的信息输出。

深度学习-LSTM与GRU的简单理解

 

GRU:

GRU是Gated Recurrent Unit的缩写,与LSTM最大的不同在于GRU将遗忘门和输入门合成了一个“更新门”,同时网络不再额外给出记忆状态Ct,而是将输出结果ht作为记忆 状态不断向后循环传递,网络的输入和输出都变得特别简单。

深度学习-LSTM与GRU的简单理解