论文浏览(32) Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition
0. 前言
1. 要解决什么问题
- 人体行为识别使用的数据源很多,有RGB图像、深度图、光流、人体骨架等。在这些数据源中,动态人体骨架能够传递重要信息,作为补充。但是,对于动态骨架建模相关的研究比较少。
- 之前对动态骨架建模的主要方式是:
- 使用关键点的坐标信息,结合不同时间点的数据,构建特征向量。这类主要的问题在于,没有直接利用这些特征点之间的空间关系,而空间关系对于行为识别来说非常重要。
- 利用关键点之间连接关系。这类方法的主要问题在于,特征一般是手工提取的,或者指定了一些空间规则,泛化能力差。
2. 用了什么方法
- 使用图神经网络来对人体动态骨架进行建模。
- 模型输入是若干时间点的人体骨架。骨架信息包含两种连接,一种是某一时间点某个人自身关键点的连接(Spatial Edges),一种是相邻时间点同一位置关键点之间的连接(Temporal Edges)。
- 这种结构的优势:不需要进行手动特征提取。
- ST-GCN 总体流程如下图
- 数据输入可以是直接从设备读取,也可以通过姿态估计算法获取。
- 数据输入是通过不同时刻的骨架数据构建 spatial temporal graph。
- 网络本身通过若干 时空图卷积 实现。
- 最后通过特征提取+fc+softmax实现分类。
- 其他一些细节在研究代码的时候再说,包括:
- 骨架图构建
- 空间图神经网络构建
- Partition Strategies(分区策略)
3. 效果如何
- 一些实验设置:Kinetics数据集本身没有关键点信息,所以使用OpenPose在RGB上提取关键点,然后作为ST-GCN的输入。
- 效果如下
- 简单说下情况
- Kinetics-400 上,基于关键点的效果比基于RGB的差很多(I3D 57% VS ST-GCN 30.7%)
- 为了说明ST-GCN的优势,选择了30类与人体姿态息息相关的行为单独检测,终于,ST-GCN的效果比RGB好了……
- 虽然单个模型的效果RGB比FLOW/ST-GCN好很多,但如果进行模型集成,效果比RGB好一些。ST-GCN与RGB集成的效果比FLOW与RGB集成的效果好一点。
4. 还存在什么问题&有什么可以借鉴
-
不知道整体inference time如何。
-
所谓的model ensemble,值得就是在最终probs上取平均吗
-
NTU-RGB+D数据集如果使用I3D这些方法,效果如何。