学习GRU

为什么会提出 GRU?
1.RNN存在梯度爆炸和梯度消失的缺点

2LSTM 门控网络结构过于复杂与冗余

GRU将遗忘门和输入门合并成更新门,同时将记忆单元与隐藏层合并成重置门,进而让整个结构运算变得更加简化且性能得以增强。
学习GRU
每个隐藏单元都有单独的重置和更新门

当重置门接近于0时,隐藏状态*忽略先前的隐藏状态,仅用当前输入进行复位。这有效地使隐藏状态可以丢弃将来以后发现不想关的任何信息,从而允许更紧凑的表示。

另一方面,更新门控制从前一个隐藏状态将有多少信息转移到当前隐藏状态。这类似于LSTM网络中的记忆单元,并有助于RNN记住长期信息。