LSTM、GRU、 BRNN、Hierarchical RNN

传统的RNN在训练long-term dependencies 的时候会遇到很多困难，最常见的便是vanish gradient problen。期间有很多种解决这个问题的方法被发表。大致可以分为两类：一类是以新的方法改善或者代替传统的SGD方法，如Bengio提出的clip gradient；另一种则是设计更加精密的recurrent unit，如LSTM，GRU。而本文的重点是比较LSTM，GRU的performance。由于在machine translation上这两种unit的performance已经得到验证（效果差别不明显，performance差别不大）