行为识别 - Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition

0. 前言

当前行为识别模型研究现状：
- 2D模型在Something-Something上效果更好，3D模型在Kinetics上效果更好。
- 现在行为识别模型的对比上一般会关注accuracy和efficiency，而忽略其他细节，比如backbone。
- 一般认为，对时间维度建模在行为识别中非常重要，但最新研究表明，在Kinetics和Moments-in-Time数据集上，纯spatial模型的效果跟spatio-temporal模型效果差不多，甚至更好。
- 行为识别近些年的研究，主要集中在efficientcy上，在accuracy上提高较少。
进一步对比、分析现有行为识别模型的结果。
- 特别要比较2D与3D模型之间的关系。

行为识别 - Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition

行为识别 - Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition

人和模型对于 data temporality 的理解非常不同
- 人选出一些时间顺序相关的动作
- 使用TSN和TAM训练一些模型，将性能提升最大的那些类认为是“模型认为data temporality较大的类”

行为识别 - Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition

对比I3D/TAM/SlowFast的temporal gain，其实差不多
- 所谓 temporal gain，就是与TSN比accuracy上升幅度。
- 2D/3D模型其实差不多。

行为识别 - Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition

关于 data temporality 有一个现象
- 如果把模型认为最 data temporality 的40类去掉，总体accuracy提升了（说明temporal相关类的准确率较低）
- 去掉temporal相关类后，acc增加，ATG-all和ATG-tc没有下降太多。
- ATG是 average temporal gain的缩写，即通过temporal操作提高的精度。all代表所有类，tc代表temporal gain 最高的40类。

行为识别 - Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition