LSTM、GRU、 BRNN、Hierarchical RNN

传统的RNN在训练long-term dependencies 的时候会遇到很多困难,最常见的便是vanish gradient problen。期间有很多种解决这个问题的方法被发表。大致可以分为两类:一类是以新的方法改善或者代替传统的SGD方法,如Bengio提出的clip gradient;另一种则是设计更加精密的recurrent unit,如LSTM,GRU。而本文的重点是比较LSTM,GRU的performance。由于在machine translation上这两种unit的performance已经得到验证(效果差别不明显,performance差别不大)

LSTM、GRU、 BRNN、Hierarchical RNN

1) LSTM:

 LSTM、GRU、 BRNN、Hierarchical RNN

2)GRU:

LSTM、GRU、 BRNN、Hierarchical RNN

 

3)LSTM

LSTM、GRU、 BRNN、Hierarchical RNN

LSTM、GRU、 BRNN、Hierarchical RNN

LSTM、GRU、 BRNN、Hierarchical RNN

5)Hierarchical RNN

LSTM、GRU、 BRNN、Hierarchical RNN

 

 

4)BRNN

LSTM、GRU、 BRNN、Hierarchical RNN