关于LSTM Layer在视频检测或识别任务中的作用的简单理解

LSTM为长短期记忆网络,故名思议它是具有记忆能力的,通俗讲就是可以联系上下文的信息对被离散开的时间信息进行组合。所以LSTM的的主要作用是“时间序列预测”。

CNN或RNN对视频帧进行进行特征提取,提取出的特征被输出,而输出的特征也是离散的,即每一帧是每一帧的特征。而用于动作识别的网络中,在两组网络分别训练不同的模态(如RGB和Depth)后需要进行特征的融合。

不管是CNN直接输出的特征还是融合后的特征均是离散的。那么如何在输出的结果中显示出离散的分类呢?这就用到LSTM网络了。输出的离散的单帧特征被LSTM按照时间序列重新联系在一起,以使得对于视频序列的完整预测。而每一时刻的特征被同时输出到分类器中,使得最后输出完整的视频预测。如下图:

关于LSTM Layer在视频检测或识别任务中的作用的简单理解

红色是卷积网络的多个输出,灰色是LSTM单元,黄色是softmax分类器。很形象的显示了LSTM的作用和效果。