DD-Net: Make Skeleton-based Action Recognition Model Smaller, Faster and Better

GitHub:https://github.com/fandulu/DD-Net

arxiv:https://arxiv.org/pdf/1907.09658.pdf

结论:一种基于关键点的动作识别方法,输入为时序上关键点位置,快到没朋友,2000FPS无压力

优点:

  • 很好复现,方法简单粗暴,一看就肯定有效果
  • 快到没朋友

缺点:

  • 需要基于相对完善的关键点定位
  • 想实际部署的话,数据集估计很难搞

这篇需要关注三个点

1.输入JCD

2.输入Cartesian Coordinates

3.时序上一维的CNN卷积

 

DD-Net: Make Skeleton-based Action Recognition Model Smaller, Faster and Better

JCD

  • 不妨假设总共定位了N个特征点,计算两两之间的距离,总计(N²+1)/2维
  • 不妨假设用到了连续的z帧
  • 则JCD为 [batch,  z, 1, (N²+1)/2]维矩阵

 Cartesian Coordinates

  • 按快慢(步长为1、2)计算关键点的变化距离
  • 移动较慢的数据维度为 [batch, z-1, 1, N ],较快的为  [batch, z-2, 1, N]
  • 统一resize成 [batch, z, 1, N ],否则没法concat

时序上的卷积

  • 在时序的维度上做1D的卷积,即可关联前后帧的信息,好处就不多说了
  • 上述输入经过 1*1卷积 --> 3*1卷积 --> 1*1卷积 +pooling 映射到特征空间
  • 三者concat之后再经过时序上的卷积,最后GAP+FC输出

结果自然是好的

DD-Net: Make Skeleton-based Action Recognition Model Smaller, Faster and Better