DD-Net: Make Skeleton-based Action Recognition Model Smaller, Faster and Better
GitHub:https://github.com/fandulu/DD-Net
arxiv:https://arxiv.org/pdf/1907.09658.pdf
结论:一种基于关键点的动作识别方法,输入为时序上关键点位置,快到没朋友,2000FPS无压力
优点:
- 很好复现,方法简单粗暴,一看就肯定有效果
- 快到没朋友
缺点:
- 需要基于相对完善的关键点定位
- 想实际部署的话,数据集估计很难搞
这篇需要关注三个点
1.输入JCD
2.输入Cartesian Coordinates
3.时序上一维的CNN卷积
JCD
- 不妨假设总共定位了N个特征点,计算两两之间的距离,总计(N²+1)/2维
- 不妨假设用到了连续的z帧
- 则JCD为 [batch, z, 1, (N²+1)/2]维矩阵
Cartesian Coordinates
- 按快慢(步长为1、2)计算关键点的变化距离
- 移动较慢的数据维度为 [batch, z-1, 1, N ],较快的为 [batch, z-2, 1, N]
- 统一resize成 [batch, z, 1, N ],否则没法concat
时序上的卷积
- 在时序的维度上做1D的卷积,即可关联前后帧的信息,好处就不多说了
- 上述输入经过 1*1卷积 --> 3*1卷积 --> 1*1卷积 +pooling 映射到特征空间
- 三者concat之后再经过时序上的卷积,最后GAP+FC输出