【论文阅读笔记】Learning Spatiotemporal Features with 3D Convolutional Networks

论文主要贡献：

1.验证了3D卷积神经网络能够同时捕捉外观和运动信息，是优秀的特征提取器。

2.在特定的构架内，3X3X3的卷积核在所有层中都表现出最好的效果。

3.3D卷积神经网络提取出的特征结合线性模型分类器所得到的结果在6个数据集（4个识别任务）中都有突出的性能。

好的视频特征描述应该包含如下特征：

a）具有通用性，对任意类型的视频都能够有好的描述效果。

b）特征足够紧凑，紧凑的特征有利于存储，处理和检索任务的扩展。

c）需要的计算资源要尽可能少，能够高效率提取。

d）好的特征能够使分类模型易于实现。尽管使用简单的分类器，也能够对视频进行很好的分类。

共同网络参数：

数据集：UCF101, Sports-1M

输入：3（通道）X16（帧数）X112X112（帧大小），minibatch 30.初始learning-rate：0.003，每4个epoch后将learning-rateX0.1作为新的学习率。共训练16个epoch。optimization：SGD

训练集：每个视频截取5个不同的片段，每个片段16帧，2秒

网络构架：5个卷积层（3X3X3，步长1）+5个max pooling层（第一层1X2X2，其余2X2X2）+2个fc层（4096）+softmax

【论文阅读笔记】Learning Spatiotemporal Features with 3D Convolutional Networks

对网络构架的探索：

1.卷积核深度的探索

a）每个卷积层的卷积核个数相同。分别设置为1，3，5，7。

b）每层采用不同卷积核个数。分别为3-3-5-5-7，7-5-5-3-3。实验结果如下：

【论文阅读笔记】Learning Spatiotemporal Features with 3D Convolutional Networks

实验证明3X3X3核效果最好。

时空特征学习：

实验结果如下图，Convolution pooling效果最好是因为它输入的片段更长，有120帧。所以总体而言C3D提取的特征能够很好地用于预测分类。

【论文阅读笔记】Learning Spatiotemporal Features with 3D Convolutional Networks

在动作识别上，与其他主流分类方法做对比，实验结果如下图，第一部分是两个baseline，第二部分是只用RGB特征进行分类的结果，第三部分是组合了多种特征的结果。结论是C3D能够同时捕捉到视频的静止图像特征和运动特征。

【论文阅读笔记】Learning Spatiotemporal Features with 3D Convolutional Networks

特征紧凑性

为了评估紧凑性使用PCA对特征进行降维，并且使用SVM进行分类。实验结果证明C3D特征不仅具有紧凑性，特征也具有强辨识度。

【论文阅读笔记】Learning Spatiotemporal Features with 3D Convolutional Networks

场景和物体识别：

数据集: YUPENN，Maryland，实验证明效果非常好。

【论文阅读笔记】Learning Spatiotemporal Features with 3D Convolutional Networks