您的位置: 首页 > 文章 > DD-Net: Make Skeleton-based Action Recognition Model Smaller, Faster and Better

DD-Net: Make Skeleton-based Action Recognition Model Smaller, Faster and Better

分类: 文章 • 2024-10-19 19:11:47

GitHub：https://github.com/fandulu/DD-Net

arxiv：https://arxiv.org/pdf/1907.09658.pdf

结论：一种基于关键点的动作识别方法，输入为时序上关键点位置，快到没朋友，2000FPS无压力

优点：

很好复现，方法简单粗暴，一看就肯定有效果
快到没朋友

缺点：

需要基于相对完善的关键点定位
想实际部署的话，数据集估计很难搞

这篇需要关注三个点

1.输入JCD

2.输入Cartesian Coordinates

3.时序上一维的CNN卷积

DD-Net: Make Skeleton-based Action Recognition Model Smaller, Faster and Better

JCD

不妨假设总共定位了N个特征点，计算两两之间的距离，总计(N²+1)/2维
不妨假设用到了连续的z帧
则JCD为 [batch, z, 1, (N²+1)/2]维矩阵

Cartesian Coordinates

按快慢（步长为1、2）计算关键点的变化距离
移动较慢的数据维度为 [batch, z-1, 1, N ]，较快的为 [batch, z-2, 1, N]
统一resize成 [batch, z, 1, N ]，否则没法concat

时序上的卷积

在时序的维度上做1D的卷积，即可关联前后帧的信息，好处就不多说了
上述输入经过 1*1卷积 --> 3*1卷积 --> 1*1卷积 +pooling 映射到特征空间
三者concat之后再经过时序上的卷积，最后GAP+FC输出

结果自然是好的

DD-Net: Make Skeleton-based Action Recognition Model Smaller, Faster and Better