论文笔记3D Convolutional Neural Networks for Human Action Recognition

1 简介

本文依据2009年左右的《3D Convolutional Neural Networks for Human Action Recognition》翻译总结.

应该是较早提出3D CNN的文章。识别的人类动作主要要三种打电话、ObjectPut、Pointing。

2 3D Convolutional Neural Networks

2.1 2D CNN

论文笔记3D Convolutional Neural Networks for Human Action Recognition

2.2 3D 卷积

论文笔记3D Convolutional Neural Networks for Human Action Recognition

下图是共享权重的3D卷积。相同的3D kernel.

论文笔记3D Convolutional Neural Networks for Human Action Recognition

不共享权重的3D卷积。右侧会产生两个不同的feature map。本文就用的这种。
论文笔记3D Convolutional Neural Networks for Human Action Recognition

2.3 3D CNN Architecture

输入用了7帧画面。

hardwired kernels 输出 5 个不同的channels 即 gray, gradient-x, gradient-y, optflow-x, and optflow-y.

H1到C2是在每个位置用了两个不同的3D卷积(上一节说到的不共享权重的3D卷积),所以产生2倍的23个feature maps.

S3到C4是用了3个不同的3D卷积,从23 * 2到13 * 6.

论文笔记3D Convolutional Neural Networks for Human Action Recognition

3 实验结果

可以看到3D CNN比2D CNN效果好。

论文笔记3D Convolutional Neural Networks for Human Action Recognition