Action Prediction探索

背景

由于项目组中有异常行为检测的项目,该项目需要对异常行为及时的报警,是real-time and online的检测。前期,项目研究了Action Recognition,而Recognition是对trimmed视频进行识别,而且是对发生完的动作进行识别,不适合项目的需求。而之后又探索了anomaly detection,这个是对异常事件的检测,但是异常事件检测采用重构的思想,即对正常行为进行训练,重构误差小,当一个没有见过的行为出现时,重构误差将会很大,用重构误差来判断一个行为是否属于异常事件,往往会出现误报警,即一个人突然快速走路也会判断为异常事件,不适合异常行为的场合。
因此,综合前面的探索,考虑到应用场景,因此把研究方向定到了Action Prediction。

Action Prediction定义:

根据论文SSNet: Scale Selection Network for Online 3D Action Prediction提及,Recognizing (predicting) an action before it is fully performed,即在行为没有全部发生时,便识别整个行为,这种操作就是行为预测。也称为early action recognition

调研

  1. Human Interaction Prediction Using Deep Temporal Features, ECCV2016.
    Action Prediction探索

通过对视频帧提取opetical flow并且转换为彩图 ,根据不同的数据集合用不同的方式选取ROI 区域,即可以通过行人检测获得每个人的box, 并merge box获得ROI。输入ROI 区域并且通过CNN 建模,获得temporal features,并对行为进行分类。
测试的时候,用前50%的数据判断视频的类型即可
2. Leveraging Structural Context Models and Ranking
Score Fusion for Human Interaction Prediction, TMM2017

Action Prediction探索
Action Prediction探索
共有两个部分的特点:
1. 将输入分为local 和 global两个部分,global部分指两个人共同的区域,local部分分为:单独每个人,每个人的上半身和下半身。分割的部分采用的是human detection,根据Human detection的bbox,进而手工计算两个人共同区域、上半身以及下半身。根据规则来设定。
2. 采用spatial + temporal信息共同判断,最终采用可学习参数的fuse,对多个model进行融合。

其中每个模块的结构如下图所示:
1. structure model (including spatial and temporal)
Action Prediction探索
对一个时刻下的结构进行建模和分类
2. spatial model and temporal model
Action Prediction探索
temporal model是对多个时刻的动作进行建模并分类