论文笔记:Anomaly Detection in Video Using Predictive Convolutional Long Short-Term Memory Networks

本文使用Conv-LSTM做视频中的异常检测,涉及到预测帧、重构误差,2016年发表的文章,还是有阅读的价值。

摘要

异常事件的定义模棱两可,因此在长视频序列中自动检测异常事件具有挑战性。作者通过学习生成模型来解决这个问题,该模型可以使用有限的监督来识别视频中的异常。本文提出了端到端的可训练复合卷积长期短期记忆(Conv-LSTM)网络,该网络能够从少量输入帧中预测视频序列的演变。规律性分数是从一组具有异常视频序列的预测的重建误差中得出的,因为随着时间的推移,规律性分数与实际序列的距离会越来越远,从而产生较低的规律性分数。这些模型采用了复合结构,并在学习更有意义的表示形式时检验了“条件”的影响。基于重构和预测精度选择最佳模型。对Conv-LSTM模型进行了定性和定量评估,证明了在异常检测数据集上的竞争结果。 Conv-LSTM单元被证明是用于建模和预测视频序列的有效工具。

介绍

视频中的异常通常被定义为不同寻常的事件,表示不规则的行为。因此,异常检测在许多不同的领域有广泛的应用,包括监视、入侵检测、健康监视和事件检测。对长视频序列感兴趣的不寻常事件,例如监控录像,通常发生的概率极低。因此,手工检测这些罕见的事件或异常,是一项非常耗费人力物力的任务。这促使需要自动检测和分割感兴趣的序列[1]-[15]。

相对于相关领域的行为识别,其中有明确定义的兴趣事件,视频中的异常是模糊的定义,可能涵盖广泛的活动。由于其不那么清晰,可以在几乎不需要监管的情况下训练的模型,包括时空特征、字典学习和自动编码[15],这些方法已经用于异常检测。

本文有两个主要贡献。第一个贡献是基于复合卷积长短时记忆(conv-lstm)网络架构的生成模型的开发。受[16]的启发,本文的convlstm网络结合了一个复合模型,能够编码输入视频序列,重建它,并预测其近期的未来。该网络预测能力的一个例子如图1所示。模型使用了conv-lstm单位,允许网络可以更好地学习时空表征。通过创建具有更好的预测能力的复合模型来扩展[16]模型,并同时考虑非条件变量和条件变量,其中输出用于条件下一个时间步的输入。

第二个贡献是应用ConvLSTM网络检测异常视频片段使用规则评估算法在模型的输出。视频序列的规律性是相对于来自同一来源的其他序列而言的。通过UCSDped1数据集、UCSDped2数据集等等对模型进行了评估。

相关工作

Hasan等人在[15]中使用卷积神经网络(convolutional neural network, CNN)来学习给定视频序列的时间规律。从重构误差中计算出规则性评分,用于检测异常段。虽然很有效,但CNNs的发展并没有考虑到时间特征,也不适合视频。convlstms以类似于LSTMs泛化稠密网络的方式泛化CNNs

实验结果

论文笔记:Anomaly Detection in Video Using Predictive Convolutional Long Short-Term Memory Networks