【论文阅读笔记】Learning Spatiotemporal Features with 3D Convolutional Networks
论文主要贡献:
1.验证了3D卷积神经网络能够同时捕捉外观和运动信息,是优秀的特征提取器。
2.在特定的构架内,3X3X3的卷积核在所有层中都表现出最好的效果。
3.3D卷积神经网络提取出的特征结合线性模型分类器所得到的结果在6个数据集(4个识别任务)中都有突出的性能。
好的视频特征描述应该包含如下特征:
a)具有通用性,对任意类型的视频都能够有好的描述效果。
b)特征足够紧凑,紧凑的特征有利于存储,处理和检索任务的扩展。
c)需要的计算资源要尽可能少,能够高效率提取。
d)好的特征能够使分类模型易于实现。尽管使用简单的分类器,也能够对视频进行很好的分类。
共同网络参数:
数据集:UCF101, Sports-1M
输入:3(通道)X16(帧数)X112X112(帧大小),minibatch 30.初始learning-rate:0.003,每4个epoch后将learning-rateX0.1作为新的学习率。共训练16个epoch。optimization:SGD
训练集:每个视频截取5个不同的片段,每个片段16帧,2秒
网络构架:5个卷积层(3X3X3,步长1)+5个max pooling层(第一层1X2X2,其余2X2X2)+2个fc层(4096)+softmax
对网络构架的探索:
1.卷积核深度的探索
a)每个卷积层的卷积核个数相同。分别设置为1,3,5,7。
b)每层采用不同卷积核个数。分别为3-3-5-5-7,7-5-5-3-3。实验结果如下:
实验证明3X3X3核效果最好。
时空特征学习:
实验结果如下图,Convolution pooling效果最好是因为它输入的片段更长,有120帧。所以总体而言C3D提取的特征能够很好地用于预测分类。
在动作识别上,与其他主流分类方法做对比,实验结果如下图,第一部分是两个baseline,第二部分是只用RGB特征进行分类的结果,第三部分是组合了多种特征的结果。结论是C3D能够同时捕捉到视频的静止图像特征和运动特征。
特征紧凑性
为了评估紧凑性使用PCA对特征进行降维,并且使用SVM进行分类。实验结果证明C3D特征不仅具有紧凑性,特征也具有强辨识度。
场景和物体识别:
数据集: YUPENN,Maryland,实验证明效果非常好。