Deep RNN Framework for Visual Sequential Applications

来自2019CVPR 上海交大彭博的论文。

改论文主要面对的问题是
1.RNN网络的深度与RNN的细胞数迟矛盾关系
2.RNN层数过深导致在训练时精度下降
3.RNN增加参数量增加明显

主要贡献：
1.提出了一个新的模型CBM Context Bridge Module
2.提出了一种平滑过度问题1的方法，Overlap Coherence Training Scheme。

CBM Context Bridge Module

Deep RNN Framework for Visual Sequential Applications
在Cell种蓝色的线代表了representation flows，主要来提取图片的特征信息,红色的线代表temporal flows主要提取时间维度信息，特别的其中R代表了一个计算单元通过CNN实现用来提取特征，T主要是提取时间单元信息（可以时一个单纯的Sigmoid(Conv(·)) (as simple as the conventional RNN) 或者 LSTM）。最后用过ζ对两部分参数进行整合。在本文中主要使用了element-wise production（按元素一个一个相乘）。

整个网络主要目的是用来分开空间维度行的信息与时间维度上的信息，基本上是通过CNN与RNN的结合应用来。特别的由于RNN过深导致训练困难的问题，主要是通过图中虚线来完成，他定义了一个参数Temporal Dropout，主要来限制从T的反向传播，当TD等于1时完全限制回传，当为0时，反向传播不受限制。通过以上操纵主要来减少空间与时间信息的纠缠依赖。
Deep RNN Framework for Visual Sequential Applications