[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition

A New Representation of Skeleton Sequences for 3D Action Recognition
CVPR 2017
本文的主要思想是将３d骨架坐标转换成图片，然后再用卷积网络提取特征，时域上的特征通过特殊的卷积核来提取，以达到时序记忆的目的。

一、主要方法

1.New Representation

每一段3d skeleton sequence都转换成四张图片。
以左肩、右肩、左臀、右臀作为基准点，计算和其他节点的相对位置，由此得到四个矩阵，再把这四个矩阵归一化到0-255之间，变成灰度图片，再送入网络提特征。
四个图片维度 $（ m - 1 ） * t$

$m$ :关节点个数
$t$ :帧数

[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition
因为每张图片都是针对同一个基准点的，因此同一张图片都是 spatial invariarant的，所以描述出来的temporal dynaminc都很鲁棒。

2.网络结构：

先用VGG的前五层提特征，得到14X14x512的特征向量
再在行上（时间上）做池化，池化kernel 14x1,这样就实现了时域上的信息融合，而不是采用LSTM.
池化是取平均池化：
[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition

再将得到的14X512个feature map压成一个7168维的向量

3.Multi-task

4张图片，看成四个task，训练时这4个task的损失加起来变成一个总的损失函数。测试时，这四个task预测的值做一个平均。
单个task的损失函数：
[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition
总的损失函数：

二、实验：

Frames + CNN:　用四个中的单个feature vector来做分类，最后结果取平均
Clips + CNN + Concatenation：将四个feature vector拼接起来
Clips + CNN + Pooling：对四个feature vector 做max pooling
Clips + CNN+ MTLN：对四个做multi-task.
由实验结果可见，multi-task是要好于四个特征拼接的，在ntu-rgbd上相对于拼接差不多有３％的提升。按说这四个都是同类特征，用拼接是没有问题的。可是结果却令人深思。

NTU-RGBD数据集
[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition
SBU数据集：93.57%
CMU数据集：93.22% ，88.30%