[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition
A New Representation of Skeleton Sequences for 3D Action Recognition
CVPR 2017
本文的主要思想是将3d骨架坐标转换成图片,然后再用卷积网络提取特征,时域上的特征通过特殊的卷积核来提取,以达到时序记忆的目的。
一、主要方法
1.New Representation
每一段3d skeleton sequence都转换成四张图片。
以左肩、右肩、左臀、右臀作为基准点,计算和其他节点的相对位置,由此得到四个矩阵,再把这四个矩阵归一化到0-255之间,变成灰度图片,再送入网络提特征。
四个图片维度
:关节点个数
:帧数
因为每张图片都是针对同一个基准点的,因此同一张图片都是 spatial invariarant的,所以描述出来的temporal dynaminc都很鲁棒。
2.网络结构:
先用VGG的前五层提特征,得到14X14x512的特征向量
再在行上(时间上)做池化,池化kernel 14x1,这样就实现了时域上的信息融合,而不是采用LSTM.
池化是取平均池化:
再将得到的14X512个feature map压成一个7168维的向量
3.Multi-task
4张图片,看成四个task,训练时这4个task的损失加起来变成一个总的损失函数。测试时,这四个task预测的值做一个平均。
单个task的损失函数:
总的损失函数:
二、实验:
Frames + CNN: 用四个中的单个feature vector来做分类,最后结果取平均
Clips + CNN + Concatenation:将四个feature vector拼接起来
Clips + CNN + Pooling:对四个feature vector 做max pooling
Clips + CNN+ MTLN:对四个做multi-task.
由实验结果可见,multi-task是要好于四个特征拼接的,在ntu-rgbd上相对于拼接差不多有3%的提升。按说这四个都是同类特征,用拼接是没有问题的。可是结果却令人深思。
NTU-RGBD数据集
SBU数据集:93.57%
CMU数据集:93.22% ,88.30%