关于LSTM Layer在视频检测或识别任务中的作用的简单理解

LSTM为长短期记忆网络，故名思议它是具有记忆能力的，通俗讲就是可以联系上下文的信息对被离散开的时间信息进行组合。所以LSTM的的主要作用是“时间序列预测”。

CNN或RNN对视频帧进行进行特征提取，提取出的特征被输出，而输出的特征也是离散的，即每一帧是每一帧的特征。而用于动作识别的网络中，在两组网络分别训练不同的模态（如RGB和Depth）后需要进行特征的融合。

不管是CNN直接输出的特征还是融合后的特征均是离散的。那么如何在输出的结果中显示出离散的分类呢？这就用到LSTM网络了。输出的离散的单帧特征被LSTM按照时间序列重新联系在一起，以使得对于视频序列的完整预测。而每一时刻的特征被同时输出到分类器中，使得最后输出完整的视频预测。如下图：