论文笔记 - C3D - Learning Spatiotemporal Features with 3D Convolutional Networks
Learning Spatiotemporal Features with 3D Convolutional Networks
翻译过这篇论文后,简单梳理一下本论文。
一、摘要
提出了一种简单还有效的时空特征学习方法,它基于大尺度监督视频数据集上训练的深层三维卷积网络( ),其中发现三个方面:
(1)相比于 , 更适用于时空特征的学习;
(2) 3×3×3 的卷积内核,是 中性能最好的架构之一;
(3)我们学习到的特征,即 ( ),在4个不同的基准上用一个简单的线性分类器就可以超过最先进的方法,并且与其他2个基准上的最优方法旗鼓相当。
另外,它的特征非常紧凑。由于采用了 的快速推理能力,其计算效率也非常高。 它们在概念上非常简单,并且易于训练和使用。
二、介绍
1、简单介绍
互联网上的多媒体技术正在快速发展,导致了每分钟共享的视频数量也在增加。为了应对信息爆炸,是很有必要的去理解和分析这些视频的各种需求,对于通用视频描述符的需求仍在增长,视频描述符是有助于以同类方式去解决大规模的视频任务。有效的视频描述符必须具备的四个属性:通用的但同时也有有区别的;紧凑的;高效的计算;易于实现;
2、 的提出
受图像领域的深度学习突破的启发,近年来在特征学习方面取得了快速进展。然而,基于图像的深度特征由于缺乏运动建模,并不直接适用于视频,故本文提出利用深 去学习时空特征。 的特性将视频中与对象、场景和动作相关的信息封装起来,使得它们可以用于各种任务,无需微调。
3、本文贡献:
- 实验表明,三维卷积深度网络是一种很好的特征学习机器,可以同时对外观和运动进行建模。
- 在有限的探索架构中,3×3×3 的卷积内核工作的最好。
- 使用简单的线性模型所提出的特征会优于或接近当前的最佳方法。它们也很紧凑,计算效率很高。
三、卷积、池化、最优内核时间深度
1、 可以保留时间信息
非常适合于时空特征的学习,它能够通过 卷积和 池化操作更好地建模时间信息。 卷积后会丢失时间信息,输出图像;而 卷积可以保留输入信号的时间信息。
2、固定空间接收域 3×3,仅改变时间深度
使用 数据集进行实验,根据 的研究结果,带有3×3 卷积核的小型接收域且在较深体系结构上会产生最佳结果。 为了我们架构的搜索研究,我们固定空间接收域为 3×3,并且仅改变 卷积核的时间深度。
3、视频剪辑、 内核大小
视频剪辑:参考尺寸为 ,其中 是通道数, 是帧数的长度, 和 分别是帧的高度和宽度。 卷积和池化内核大小:参考尺寸为 ,其中 是内核时间深度, 是内核空间大小。
4、所训练过的所有网络*有的设置
1)视频被分成不重叠的16帧的剪辑,将其作为网络的输入,输入的尺寸为 。对输入剪辑进行尺寸为 的随机裁剪来实现抖动(达到数据集增强效果)。
2)通用的网络有 个卷积层和 个池化层(每一个卷积层后紧跟着一个池化层),两个全连接层和一个 损失层来预测动作标签。卷积层的滤波器的数量分别是 。所有卷积核的内核时间深度为 (改变其值得到一个好的架构)。第一个池化层的内核尺寸为 ;剩下所有的池化层的内核尺寸为 (步长为 1)
3)两个全卷积层有 个输出。我们从头开始使用 个片段的小批量训练网络,初始学习率为 ,学习率在每 个周期之后除以 ,并且训练在 个周期之后停止。
5、depth-3最优, 是 的最佳内核尺寸的选择
我们改变卷积层的内核时间深度 ,尝试两种:(1)均匀时间深度,命名为 ;(2)不同的时间深度,分别进行时间深度增加的和时间深度减少的;
四、学习时空特征
1、
1)有8个卷积层:卷积滤波器均为 ,步长为 。
2)有5个池化层:第一个池化层内核大小为 、步长 ,其余池化层均为 ,步长为 。
3)有2个全连接层,每个都有 个输出单元。
4)1个 输出层。
2、训练
在 的每个训练视频中随机提取五个 秒长的视频片段,调整成帧大小,即 。在训练中,我们将输入片段进行随机地裁剪成 的片段,用于空间和时间抖动,也以 %的概率去水平翻转它们。训练由SGD完成,每批 个样本,初始学习率为 ,每 次迭代后就除以 ,优化在 次迭代后(约 个周期)停止。
3、 的分类结果
网络从头开始训练,产生了 %的准确度,从 预训练模型中微调的 网络,产生 %的准确率,排在准确率前五名。
4、 视频描述符
视频被分割成 帧的长剪辑,在两个连续片段之间具有 8 帧重叠,传递到 网络中,提取 **, **平均形成一个 的视频描述符, 正则化。
5、 一开始只关注前几帧的外观,然后在接下来的几帧中跟踪突出的运动。
五、行为识别
1、采用3个不同的网络去进行实验:
在 上训练的 ,在 上训练的 ,以及在 上训练并在 上进行微调的 。
2、实验结果
将 与 相结合没有任何好处,将 与 相结合最优,两者有很强的互补性。
六、动作相似性
1、特征
将视频分为带有 帧重叠的 帧片段,提取每个片段的 特征:,,,,求剪辑特征的平均值,再进行 归一化。
2、分类模型
我们计算在【21】中所提供的 个不同的距离。 具有 种类型的特征,我们从每个视频对中获得 维()特征向量。 由于这 个距离彼此无法比较,所以我们独立地对它们进行标准化,使得每个维度的均值和单位方差都为 。
3、实验结果: 显著优于最先进的方法
七、场景和对象识别
1、数据集
在两个基准上评估了 : 和 。值得注意的一点是,这个数据集是以自我为中心的,所有的视频都记录在第一人称视图中,与我们在训练数据集中的任何视频相比,具有非常不同的外观和运动特征。
2、分类模型
采用长度为 帧的视频剪辑来提取特征。 我们在所有视频上滑动一个 帧的窗口来提取 特征。我们为每个剪辑选择 标签作为剪辑最频繁出现的标签。 如果剪辑中最常见标签少于 帧,那么我们认为它是没有事物的负片段,并在训练和测试中丢弃它。
我们使用线性分类器来训练和测试 特征,并报告目标识别的准确率。
3、实验结果: 优于最先进的方法
八、运行时间分析
比实时快得多,处理速度为 。
九、结论
1)展示了 可以同时对外观和运动信息进行建模,在各种视频分析任务上优于 特征。
2)在不同的视频分析基准下, 特征与线性分类器可以超越或接近目前最好的方法。
3)提出的 特征是高效的、紧凑的、而且使用是非常简单的。