论文笔记 - C3D - Learning Spatiotemporal Features with 3D Convolutional Networks

Learning Spatiotemporal Features with 3D Convolutional Networks

翻译过这篇论文后,简单梳理一下本论文。

一、摘要

  提出了一种简单还有效的时空特征学习方法,它基于大尺度监督视频数据集上训练的深层三维卷积网络(3D3D ConvNetsConvNets),其中发现三个方面:
(1)相比于 2D2D ConvNetsConvNets3D3D ConvNetsConvNets 更适用于时空特征的学习;
(2) 3×3×3 的卷积内核,是 3D3D ConvNetsConvNets 中性能最好的架构之一;
(3)我们学习到的特征,即 C3DC3D (ConvolutionalConvolutional 3D3D ),在4个不同的基准上用一个简单的线性分类器就可以超过最先进的方法,并且与其他2个基准上的最优方法旗鼓相当。
  另外,它的特征非常紧凑。由于采用了 ConvNetsConvNets 的快速推理能力,其计算效率也非常高。 它们在概念上非常简单,并且易于训练和使用。

二、介绍

1、简单介绍

  互联网上的多媒体技术正在快速发展,导致了每分钟共享的视频数量也在增加。为了应对信息爆炸,是很有必要的去理解和分析这些视频的各种需求,对于通用视频描述符的需求仍在增长,视频描述符是有助于以同类方式去解决大规模的视频任务。有效的视频描述符必须具备的四个属性:通用的但同时也有有区别的;紧凑的;高效的计算;易于实现;

2、3D3D ConvNetsConvNets 的提出

  受图像领域的深度学习突破的启发,近年来在特征学习方面取得了快速进展。然而,基于图像的深度特征由于缺乏运动建模,并不直接适用于视频,故本文提出利用深 3D3D ConvNetsConvNets 去学习时空特征。3D3D ConvNetsConvNets 的特性将视频中与对象、场景和动作相关的信息封装起来,使得它们可以用于各种任务,无需微调。

3、本文贡献:
  • 实验表明,三维卷积深度网络是一种很好的特征学习机器,可以同时对外观和运动进行建模。
  • 在有限的探索架构中,3×3×3 的卷积内核工作的最好。
  • 使用简单的线性模型所提出的特征会优于或接近当前的最佳方法。它们也很紧凑,计算效率很高。

三、卷积、池化、最优内核时间深度

1、3D3D ConvNetsConvNets 可以保留时间信息

  3D3D ConvNetsConvNets 非常适合于时空特征的学习,它能够通过 3D3D 卷积和 3D3D 池化操作更好地建模时间信息。2D2D ConvNetConvNet 卷积后会丢失时间信息,输出图像;而 3D3D 卷积可以保留输入信号的时间信息。
论文笔记 - C3D - Learning Spatiotemporal Features with 3D Convolutional Networks

2、固定空间接收域 3×3,仅改变时间深度

  使用 UCF101UCF101数据集进行实验,根据 2D2D ConvNetConvNet 的研究结果,带有3×3 卷积核的小型接收域且在较深体系结构上会产生最佳结果。 为了我们架构的搜索研究,我们固定空间接收域为 3×3,并且仅改变 3D3D 卷积核的时间深度。

3、视频剪辑、3D3D 内核大小

  视频剪辑:参考尺寸为 c×l×h×wc×l×h×w,其中 cc 是通道数,ll 是帧数的长度,hhww 分别是帧的高度和宽度。3D3D 卷积和池化内核大小:参考尺寸为 d×k×kd×k×k ,其中 dd 是内核时间深度,kk 是内核空间大小。

4、所训练过的所有网络*有的设置

1)视频被分成不重叠的16帧的剪辑,将其作为网络的输入,输入的尺寸为 3×16×128×1713×16×128×171。对输入剪辑进行尺寸为 3×16×112×1123×16×112×112 的随机裁剪来实现抖动(达到数据集增强效果)。

2)通用的网络有 55 个卷积层和 55 个池化层(每一个卷积层后紧跟着一个池化层),两个全连接层和一个 softmaxsoftmax 损失层来预测动作标签。卷积层的滤波器的数量分别是 64,128,256,256,25664, 128, 256, 256, 256。所有卷积核的内核时间深度为 dd (改变其值得到一个好的架构)。第一个池化层的内核尺寸为 1×2×21×2×2;剩下所有的池化层的内核尺寸为 2×2×22×2×2 (步长为 1)

3)两个全卷积层有 20482048 个输出。我们从头开始使用 3030 个片段的小批量训练网络,初始学习率为 0.0030.003,学习率在每 44 个周期之后除以 1010,并且训练在 1616 个周期之后停止。

5、depth-3最优,3×3×33×3×33D3D ConvNetConvNet 的最佳内核尺寸的选择

  我们改变卷积层的内核时间深度 did_i,尝试两种:(1)均匀时间深度,命名为 depthddepth-d;(2)不同的时间深度,分别进行时间深度增加的和时间深度减少的;

四、学习时空特征

1、C3DC3D

1)有8个卷积层:卷积滤波器均为 3×3×33×3×3,步长为 1×1×11×1×1
2)有5个池化层:第一个池化层内核大小为 1×2×21×2×2、步长 1×2×21×2×2,其余池化层均为 2×2×22×2×2,步长为 2×2×22×2×2
3)有2个全连接层,每个都有 40964096 个输出单元。
4)1个 softmaxsoftmax 输出层。
论文笔记 - C3D - Learning Spatiotemporal Features with 3D Convolutional Networks

2、训练

  在 Sports1Sports-1 MM 的每个训练视频中随机提取五个 22 秒长的视频片段,调整成帧大小,即 128×171128×171。在训练中,我们将输入片段进行随机地裁剪成 16×112×11216×112×112 的片段,用于空间和时间抖动,也以 5050%的概率去水平翻转它们。训练由SGD完成,每批 3030 个样本,初始学习率为 0.0030.003,每 150K150K 次迭代后就除以 22,优化在 1.9M1.9M 次迭代后(约 1313 个周期)停止。

3、Sports1Sports-1 的分类结果

  C3DC3D 网络从头开始训练,产生了 84.484.4%的准确度,从 I380KI380K 预训练模型中微调的 C3DC3D 网络,产生 85.585.5%的准确率,排在准确率前五名。

4、C3DC3D 视频描述符

  视频被分割成 1616 帧的长剪辑,在两个连续片段之间具有 8 帧重叠,传递到 C3DC3D 网络中,提取 fc6fc6 **, fc6fc6 **平均形成一个 4096dim4096-dim 的视频描述符, L2L2 正则化。

5、C3DC3D 一开始只关注前几帧的外观,然后在接下来的几帧中跟踪突出的运动。

五、行为识别

1、采用3个不同的网络去进行实验:

  在 I380KI380K 上训练的 C3DC3D ,在 Sports1MSports-1M 上训练的 C3DC3D,以及在 I380KI380K 上训练并在 Sports1MSports-1M 上进行微调的 C3DC3D

2、实验结果

  将 C3DC3DImagenetImagenet 相结合没有任何好处,将 C3DC3DiDTiDT 相结合最优,两者有很强的互补性。

六、动作相似性

1、特征

  将视频分为带有 88 帧重叠的 1616 帧片段,提取每个片段的 C3DC3D 特征:probprobfc7fc7fc6fc6pool5pool5,求剪辑特征的平均值,再进行 L2L2 归一化。

2、分类模型

  我们计算在【21】中所提供的 1212 个不同的距离。 具有 44 种类型的特征,我们从每个视频对中获得 4848 维(12×4=4812×4 = 48)特征向量。 由于这 4848 个距离彼此无法比较,所以我们独立地对它们进行标准化,使得每个维度的均值和单位方差都为 00

3、实验结果:C3DC3D 显著优于最先进的方法

七、场景和对象识别

1、数据集

  在两个基准上评估了 C3DC3DYUPENNYUPENNMarylandMaryland。值得注意的一点是,这个数据集是以自我为中心的,所有的视频都记录在第一人称视图中,与我们在训练数据集中的任何视频相比,具有非常不同的外观和运动特征。

2、分类模型

  C3DC3D 采用长度为 1616 帧的视频剪辑来提取特征。 我们在所有视频上滑动一个 1616帧的窗口来提取 C3DC3D 特征。我们为每个剪辑选择 groundtruthground truth 标签作为剪辑最频繁出现的标签。 如果剪辑中最常见标签少于 88 帧,那么我们认为它是没有事物的负片段,并在训练和测试中丢弃它。

  我们使用线性分类器来训练和测试 C3DC3D特征,并报告目标识别的准确率。

3、实验结果:C3DC3D 优于最先进的方法

八、运行时间分析

C3DC3D 比实时快得多,处理速度为 313fps313 fps

九、结论

1)展示了 C3DC3D 可以同时对外观和运动信息进行建模,在各种视频分析任务上优于2DConvNets2D ConvNets 特征。
2)在不同的视频分析基准下, C3DC3D 特征与线性分类器可以超越或接近目前最好的方法。
3)提出的 C3DC3D 特征是高效的、紧凑的、而且使用是非常简单的。