论文笔记 - TSN - 源码之家

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

摘要

本文旨在探索针对视频中行为识别的一种有效的 $ConvNet$ 体系结构的设计，以及如何在有限的训练样本下来学习这些模型。
贡献一： $temporal$ $segment$ $network$ ( $TSN$ )，基于视频行为识别的新型架构，基于长期时间结构建模的思想。它将稀疏时间采样策略和基于视频的监督相结合，使得整个动作视频能够高效地学习。
贡献二：在 $TSN$ 的帮助下，学习 $ConvNets$ 在视频数据方面的处理。
贡献三：对已学习的 $ConvNet$ 模型进行可视化，这些模型定性地证明了时间段网络的有效性并且提出了良好实践。

介绍

1、其应用有两个主要障碍
1）长期时间结构在理解动作视频中的动态方面非常重要，然而主流的 $ConvNet$ 框架通常关注外观和短期运动，缺乏整合长期时间结构的能力。
2）在实践中，训练深度 $ConvNets$ 需要大量的训练样本才可达到最优性能。然而，由于数据收集和注释的困难，所以公开可用的动作识别数据集（ $e.g.$ $UCF101$ , $HMDB51$ ）在尺寸和多样性方面仍然是有限的。

2、学习两个问题
1）如何设计一个有效且高效的视频级框架，用于学习 (能够捕获长期时间结构的) 视频表示。
2）如果在有限训练样本情况下学习 $ConvNet$ 模型。

3、TSN
1）启发：在时间结构建模方面，连续帧高度冗余，此时稀疏时间采样策略更有利。
2）介绍：一个视频级的框架，采用稀疏采样方案（成本低），在一个长视频序列上提取短片段，其中样本沿时间维度均匀分布。并采用分段结构从采样段中收集信息。
3）最突出的功能：对整个视频进行长期时间结构建模。

TSN

1、目的：利用整个视频的视觉信息进行视频级预测，由空间流 $ConvNets$ 和时间流 $ConvNets$ 组成。

2、操作步骤
1）简述图解
–> 对整个视频稀疏采样得到的一系列短片段
–> 这一系列中的每个短片段都产生自己对动作类的初步预测
–> 得出视频片段之间的一致性作为视频级的预测
–> 通过迭代更新模型参数，优化视频级预测的损失值
论文笔记 - TSN
2）计算图解
–> 给定视频 $V$ ，我们将其分成等长的 $K$ 段 ${S_1，S_2，···，S_K}$
–> $(T_1，T_2，···，T_K)$ 是一系列片段，每个片段 $T_k$ 指从其对应的片段 $S_k$ 中随机采样
–> $F(T_k;W)$ 是带有参数 $W$ 的 $ConvNet$ 的函数，该函数生成所有类的初步预测类分数
–> 分段共识函数 $g$ 将多个短片段的输出组合起来，以获得它们大概的一致意见 $G$
–> 基于这个一致性共识，预测函数 $H$ 预测整个视频中每个动作类的概率（这里使用是 $Softmax$ 函数）
论文笔记 - TSN
–> 关于片段的一致意见 $G=g(F(T_1;W),F(T_2;W),...,F(T_K;W))$ 的最终损失函数为下式，其中 $C$ 是动作类的类别数， $y_i$ 是 $i$ 类的 $ground$ $truth$ 标签

3、网络结构：选择了 $BN-Inception$ 作为构造块来设计双流 $ConvNets$ ，空间流 $ConvNet$ 对单个 $RGB$ 图像进行操作，而时间流 $ConvNet$ 以一组连续的光流场作为输入。

1）空间流 $ConvNet$ 以单个 $RGB$ 图像作为输入：单个图像缺乏上下文信息，故提出 叠加 $RGB$ 差
2）时间流 $ConvNet$ 以光流场作为输入：获取运动信息，但光流场不一定聚焦在人类运动上，故提出 翘曲光流场

4、网络训练：由于数据集较小，需要避免过拟合问题

-Cross Modality Pre-training.

1）对比：对于 $RGB$ 图像为输入时，用在 $ImageNet$ 上训练的模型作为初始化。对于光流场和 $RGB$ 差分等其它形式，提出利用 $RGB$ 模型去初始化。
2）方法：通过线性变换将光流场离散为 $0$ 到 $255$ 的区间。此步骤使光流场的范围与 $RGB$ 图像相同。再修改 $RGB$ 模型的第一卷积层的权值来处理光流场的输入。即对 $RGB$ 通道上的权值进行平均，并通过临时网络输入的通道数来复制这个平均值。

-Regularization Techniques.

1）基本操作：在学习过程中，批处理归一化将对每个批处理的**均值和方差进行估计，并将这些**值转化为标准的高斯分布。
2）特点：这种操作加快了训练的收敛，但也导致了转移过程中的过拟合。
3）改进操作（部分BN策略）：固定除第一个外的所有 $BN$ 层的均值和方差参数。原因是光流分布不同于 $RGB$ 图像，所以第一卷积层的**值将有不同的分布，因此需要重新估计平均值和方差。同时，在 $BN-Inception$ 架构中，我们在全局池层之后增加了一个额外的 $dropout$ 层，以进一步减少过拟合的影响。

-Data Augmentation.

1）目的：为了防止严重过拟合
2）做法：（1）随机裁剪（2）水平翻转（3）切角（4）尺度抖动
（3）切角：提取的区域仅从图像的角点或中心选取
（4）尺度抖动：输入图像或光流场的大小固定为 $256×340$ ，再从 ${256,224,192,168}$ 中随机选择裁剪区域的宽度和高度，最后将裁剪区域调整为 $224×224$ 用于网络训练，涉及纵横比抖动。

实验

1、比较了四种设置：（1）从头训练（2）只预训练空间流（3）交叉模态预训练（4）结合交叉模态预训练和带有 $dropout$ 的部分 $BN$
实验结果：
论文笔记 - TSN
2、比较了四种模式：（1） $RGB$ 图像（2）光流场（3） $RGB$ 差分（4）翘曲光流场
实验结果：

3、比较分段共识函数g的三个候选项：（1）最大池化（2）平均池化（3）加权平均
实验结果：（比较后选择平均池作为默认的聚合函数 $g$ ）
论文笔记 - TSN
4、比较不同网络架构的性能：
实验结果：（比较后选择 $BN-Inception$ 作为时间段网络的 $ConvNet$ 架构）

5、比较四种不同的方法：
实验结果：

证实了长期的时间结构建模对于更好地理解视频中的动作是至关重要的，是通过时间段网络实现的。

6、与传统方法比较：
实验结果：
论文笔记 - TSN
我们的方法的优越性能证明了时间片段网络的有效性，并证明了长期时间建模的重要性。

7、对比三种设置来学习可视化的ConvNet模型：（1）无需预训练（2）只有预先培训（3）具有时间段网络
实验结果：
论文笔记 - TSN
1）有预训练的模型比没有预训练的模型更能表现视觉概念
2）通过从训练前过程中转移的知识，空间和时间模型能够捕获结构化的视觉模式
3）通过时间片段网络引入的长期时间建模，可以更多的关注视频中的人类，对动作类的长期结构进行建模

结论

在本文中，我们介绍了时间段网络（ $TSN$ ），一个视频级框架，旨在建模长期时间结构。正如在两个具有挑战性的数据集上所演示的那样，这项工作将技术水平提升到了一个新的水平，同时保持了合理的计算成本。
这主要归功于带有稀疏抽样的分段架构，提供了一种捕获长期时间结构的有效方法。以及我们在本工作中探索的一系列良好实践，使在有限的训练集上训练非常深的网络而不发生严重的过拟合成为可能。

论文笔记 - TSN

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

摘要

介绍

TSN

实验

结论

相关推荐