Deep RNN Framework for Visual Sequential Applications
Deep RNN Framework for Visual Sequential Applications
来自2019CVPR 上海交大 彭博的论文。
改论文主要面对的问题是
1.RNN网络的深度与RNN的细胞数迟矛盾关系
2.RNN层数过深导致在训练时精度下降
3.RNN增加参数量增加明显
主要贡献:
1.提出了一个新的模型CBM Context Bridge Module
2.提出了一种平滑过度问题1的方法,Overlap Coherence Training Scheme。
CBM Context Bridge Module
在Cell种蓝色的线代表了representation flows,主要来提取图片的特征信息,红色的线代表temporal flows主要提取时间维度信息,特别的其中R代表了一个计算单元通过CNN实现用来提取特征,T主要是提取时间单元信息(可以时一个单纯的Sigmoid(Conv(·)) (as simple as the conventional RNN) 或者 LSTM)。最后用过ζ对两部分参数进行整合。在本文中主要使用了element-wise production(按元素一个一个相乘)。
整个网络主要目的是用来分开空间维度行的信息与时间维度上的信息,基本上是通过CNN与RNN的结合应用来。特别的由于RNN过深导致训练困难的问题,主要是通过图中虚线来完成,他定义了一个参数Temporal Dropout,主要来限制从T的反向传播,当TD等于1时完全限制回传,当为0时,反向传播不受限制。通过以上操纵主要来减少空间与时间信息的纠缠依赖。
如图R来提取空间维度上的信息,T主要来提取时间维度上的信息。
Overlap Coherence Training Scheme
这一部分的思路主要来源于,由于RNN深度与广度的矛盾,其中如果输入的video太长就会导致广度增加,使得深度下降,因此人提取使用将输入序列分开的方法,不过就会相对破坏连续序列的时间性。
在这基础上本文做了进一步的改进。
在原有的基础上通过随机采样的方法,采取多个片段进行训练,这样就会减少输入序列的广度,提高RNN的深度。
这样做主要来的如下几点好处:
1.类似与数据增强,起到数据增强的作用
2.解决梯度消失跟梯度爆炸的问题
3.使得时间信息更加平滑的过度
由于Overlap Coherence Training Scheme因为这一策略提出了响应的损失函数:
其中Lr是原始的loss,Ld代表overlap coherence loss(主要来强制来自不同剪辑的重叠输出尽可能一致)主要是用的MSE loss。