论文笔记 - C3D - Learning Spatiotemporal Features with 3D Convolutional Networks

Learning Spatiotemporal Features with 3D Convolutional Networks

翻译过这篇论文后，简单梳理一下本论文。

一、摘要

提出了一种简单还有效的时空特征学习方法，它基于大尺度监督视频数据集上训练的深层三维卷积网络（ $3D$ $ConvNets$ ），其中发现三个方面：
（1）相比于 $2D$ $ConvNets$ ， $3D$ $ConvNets$ 更适用于时空特征的学习；
（2） 3×3×3 的卷积内核，是 $3D$ $ConvNets$ 中性能最好的架构之一；
（3）我们学习到的特征，即 $C3D$ ( $Convolutional$ $3D$ )，在4个不同的基准上用一个简单的线性分类器就可以超过最先进的方法，并且与其他2个基准上的最优方法旗鼓相当。
另外，它的特征非常紧凑。由于采用了 $ConvNets$ 的快速推理能力，其计算效率也非常高。它们在概念上非常简单，并且易于训练和使用。

二、介绍

1、简单介绍

互联网上的多媒体技术正在快速发展，导致了每分钟共享的视频数量也在增加。为了应对信息爆炸，是很有必要的去理解和分析这些视频的各种需求，对于通用视频描述符的需求仍在增长，视频描述符是有助于以同类方式去解决大规模的视频任务。有效的视频描述符必须具备的四个属性：通用的但同时也有有区别的；紧凑的；高效的计算；易于实现；

2、 $3D$ $ConvNets$ 的提出

受图像领域的深度学习突破的启发，近年来在特征学习方面取得了快速进展。然而，基于图像的深度特征由于缺乏运动建模，并不直接适用于视频，故本文提出利用深 $3D$ $ConvNets$ 去学习时空特征。 $3D$ $ConvNets$ 的特性将视频中与对象、场景和动作相关的信息封装起来，使得它们可以用于各种任务，无需微调。

3、本文贡献：

实验表明，三维卷积深度网络是一种很好的特征学习机器，可以同时对外观和运动进行建模。
在有限的探索架构中，3×3×3 的卷积内核工作的最好。
使用简单的线性模型所提出的特征会优于或接近当前的最佳方法。它们也很紧凑，计算效率很高。

三、卷积、池化、最优内核时间深度

1、 $3D$ $ConvNets$ 可以保留时间信息

$3D$ $ConvNets$ 非常适合于时空特征的学习，它能够通过 $3D$ 卷积和 $3D$ 池化操作更好地建模时间信息。 $2D$ $ConvNet$ 卷积后会丢失时间信息，输出图像；而 $3D$ 卷积可以保留输入信号的时间信息。
论文笔记 - C3D - Learning Spatiotemporal Features with 3D Convolutional Networks

2、固定空间接收域 3×3，仅改变时间深度

使用 $UCF101$ 数据集进行实验，根据 $2D$ $ConvNet$ 的研究结果，带有3×3 卷积核的小型接收域且在较深体系结构上会产生最佳结果。为了我们架构的搜索研究，我们固定空间接收域为 3×3，并且仅改变 $3D$ 卷积核的时间深度。

3、视频剪辑、 $3D$ 内核大小

视频剪辑：参考尺寸为 $c×l×h×w$ ，其中 $c$ 是通道数， $l$ 是帧数的长度， $h$ 和 $w$ 分别是帧的高度和宽度。 $3D$ 卷积和池化内核大小：参考尺寸为 $d×k×k$ ，其中 $d$ 是内核时间深度， $k$ 是内核空间大小。

4、所训练过的所有网络*有的设置

1）视频被分成不重叠的16帧的剪辑，将其作为网络的输入，输入的尺寸为 $3×16×128×171$ 。对输入剪辑进行尺寸为 $3×16×112×112$ 的随机裁剪来实现抖动（达到数据集增强效果）。

2）通用的网络有 $5$ 个卷积层和 $5$ 个池化层（每一个卷积层后紧跟着一个池化层），两个全连接层和一个 $softmax$ 损失层来预测动作标签。卷积层的滤波器的数量分别是 $64, 128, 256, 256, 256$ 。所有卷积核的内核时间深度为 $d$ （改变其值得到一个好的架构）。第一个池化层的内核尺寸为 $1×2×2$ ；剩下所有的池化层的内核尺寸为 $2×2×2$ （步长为 1）

3）两个全卷积层有 $2048$ 个输出。我们从头开始使用 $30$ 个片段的小批量训练网络，初始学习率为 $0.003$ ，学习率在每 $4$ 个周期之后除以 $10$ ，并且训练在 $16$ 个周期之后停止。

5、depth-3最优， $3×3×3$ 是 $3D$ $ConvNet$ 的最佳内核尺寸的选择

我们改变卷积层的内核时间深度 $d_i$ ，尝试两种：（1）均匀时间深度，命名为 $depth-d$ ；（2）不同的时间深度，分别进行时间深度增加的和时间深度减少的；

四、学习时空特征

1、 $C3D$

1）有8个卷积层：卷积滤波器均为 $3×3×3$ ，步长为 $1×1×1$ 。
2）有5个池化层：第一个池化层内核大小为 $1×2×2$ 、步长 $1×2×2$ ，其余池化层均为 $2×2×2$ ，步长为 $2×2×2$ 。
3）有2个全连接层，每个都有 $4096$ 个输出单元。
4）1个 $softmax$ 输出层。
论文笔记 - C3D - Learning Spatiotemporal Features with 3D Convolutional Networks

2、训练

在 $Sports-1$ $M$ 的每个训练视频中随机提取五个 $2$ 秒长的视频片段，调整成帧大小，即 $128×171$ 。在训练中，我们将输入片段进行随机地裁剪成 $16×112×112$ 的片段，用于空间和时间抖动，也以 $50$ ％的概率去水平翻转它们。训练由SGD完成，每批 $30$ 个样本，初始学习率为 $0.003$ ，每 $150K$ 次迭代后就除以 $2$ ，优化在 $1.9M$ 次迭代后（约 $13$ 个周期）停止。

3、 $Sports-1$ 的分类结果

$C3D$ 网络从头开始训练，产生了 $84.4$ ％的准确度，从 $I380K$ 预训练模型中微调的 $C3D$ 网络，产生 $85.5$ ％的准确率，排在准确率前五名。

4、 $C3D$ 视频描述符

视频被分割成 $16$ 帧的长剪辑，在两个连续片段之间具有 8 帧重叠，传递到 $C3D$ 网络中，提取 $fc6$ **， $fc6$ **平均形成一个 $4096-dim$ 的视频描述符， $L2$ 正则化。

5、 $C3D$ 一开始只关注前几帧的外观，然后在接下来的几帧中跟踪突出的运动。

五、行为识别

1、采用3个不同的网络去进行实验：

在 $I380K$ 上训练的 $C3D$ ，在 $Sports-1M$ 上训练的 $C3D$ ，以及在 $I380K$ 上训练并在 $Sports-1M$ 上进行微调的 $C3D$ 。

2、实验结果

将 $C3D$ 与 $Imagenet$ 相结合没有任何好处，将 $C3D$ 与 $iDT$ 相结合最优，两者有很强的互补性。

六、动作相似性

1、特征

将视频分为带有 $8$ 帧重叠的 $16$ 帧片段，提取每个片段的 $C3D$ 特征： $prob$ ， $fc7$ ， $fc6$ ， $pool5$ ，求剪辑特征的平均值，再进行 $L2$ 归一化。

2、分类模型

我们计算在【21】中所提供的 $12$ 个不同的距离。具有 $4$ 种类型的特征，我们从每个视频对中获得 $48$ 维（ $12×4 = 48$ ）特征向量。由于这 $48$ 个距离彼此无法比较，所以我们独立地对它们进行标准化，使得每个维度的均值和单位方差都为 $0$ 。

3、实验结果： $C3D$ 显著优于最先进的方法

七、场景和对象识别

1、数据集

在两个基准上评估了 $C3D$ ： $YUPENN$ 和 $Maryland$ 。值得注意的一点是，这个数据集是以自我为中心的，所有的视频都记录在第一人称视图中，与我们在训练数据集中的任何视频相比，具有非常不同的外观和运动特征。

2、分类模型

$C3D$ 采用长度为 $16$ 帧的视频剪辑来提取特征。我们在所有视频上滑动一个 $16$ 帧的窗口来提取 $C3D$ 特征。我们为每个剪辑选择 $ground truth$ 标签作为剪辑最频繁出现的标签。如果剪辑中最常见标签少于 $8$ 帧，那么我们认为它是没有事物的负片段，并在训练和测试中丢弃它。

我们使用线性分类器来训练和测试 $C3D$ 特征，并报告目标识别的准确率。

3、实验结果： $C3D$ 优于最先进的方法

八、运行时间分析

$C3D$ 比实时快得多，处理速度为 $313 fps$ 。

九、结论

1）展示了 $C3D$ 可以同时对外观和运动信息进行建模，在各种视频分析任务上优于 $2D ConvNets$ 特征。
2）在不同的视频分析基准下， $C3D$ 特征与线性分类器可以超越或接近目前最好的方法。
3）提出的 $C3D$ 特征是高效的、紧凑的、而且使用是非常简单的。

论文笔记 - C3D - Learning Spatiotemporal Features with 3D Convolutional Networks

Learning Spatiotemporal Features with 3D Convolutional Networks

一、摘要

二、介绍

1、简单介绍

2、3D3D3D ConvNetsConvNetsConvNets 的提出

3、本文贡献：

三、卷积、池化、最优内核时间深度

1、3D3D3D ConvNetsConvNetsConvNets 可以保留时间信息

2、固定空间接收域 3×3，仅改变时间深度

3、视频剪辑、3D3D3D 内核大小

4、所训练过的所有网络*有的设置

5、depth-3最优，3×3×33×3×33×3×3 是 3D3D3D ConvNetConvNetConvNet 的最佳内核尺寸的选择

四、学习时空特征

1、C3DC3DC3D

2、训练

3、Sports−1Sports-1Sports−1 的分类结果

4、C3DC3DC3D 视频描述符

5、C3DC3DC3D 一开始只关注前几帧的外观，然后在接下来的几帧中跟踪突出的运动。

五、行为识别

1、采用3个不同的网络去进行实验：

2、实验结果

六、动作相似性

1、特征

2、分类模型

3、实验结果：C3DC3DC3D 显著优于最先进的方法

七、场景和对象识别

1、数据集

2、分类模型

3、实验结果：C3DC3DC3D 优于最先进的方法

八、运行时间分析

九、结论

相关推荐

2、 $3D$ $ConvNets$ 的提出

1、 $3D$ $ConvNets$ 可以保留时间信息

3、视频剪辑、 $3D$ 内核大小

5、depth-3最优， $3×3×3$ 是 $3D$ $ConvNet$ 的最佳内核尺寸的选择

1、 $C3D$

3、 $Sports-1$ 的分类结果

4、 $C3D$ 视频描述符

5、 $C3D$ 一开始只关注前几帧的外观，然后在接下来的几帧中跟踪突出的运动。

3、实验结果： $C3D$ 显著优于最先进的方法

3、实验结果： $C3D$ 优于最先进的方法