【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译

  • Phuc Nguyen(University of California Irvine, CA, USA)
  • Ting Liu,Gautam Prasad(Google Venice, CA, USA)
  • Bohyung Han(Seoul National University Seoul, Korea)

目录

摘要

我们提出了一种用于未修剪视频的、使用卷积神经网络的弱监督时间动作定位算法。我们的算法从视频级别的分类标签中进行学习并预测人类动作的时间间隔,而不需要动作的时间定位信息。 我们使用关注模块来识别一个视频中与目标动作相关的关键片段的稀疏子集,并通过自适应时间池化融合关键片段。我们的损失函数包含两项:一个用于最小化视频级动作分类错误,另一个用于选定片段的稀疏性。在推理时,我们使用时间类**和类不可知的关注来提取和评分时间提议,以估计与目标动作相对应的时间间隔。即使在弱监督的情况下,提出的算法在 THUMOS14 数据集上达到了最先进的精度,并且在 ActivityNet1.3 上表现出色。

1.介绍

视频中的动作识别和定位是包括但不限于事件检测、视频摘要和视觉回答的高级视频理解任务的关键问题。许多研究人员在过去几十年中一直在广泛研究这些问题,但主要挑战仍然是缺乏适当的视频表达方法。与卷积神经网络(CNN)在许多图像的视觉识别任务中几乎立竿见影所不同,由于视频数据固有的复杂结构、高计算需求、缺乏对时间信息建模的知识等,将深度神经网络应用于视频并不简单。仅使用深度学习[18,29,35,40]的表达进行的一些尝试并没有明显优于依赖于手工制作的视觉特征的方法[21,36,37]。因此,许多现有算法通过结合手工制作和学习特征来寻求实现最先进的性能。

许多现有的视频理解技术都依赖于修剪过的视频作为输入。 然而,现实世界中的大多数视频是未修剪的并且包含大量与目标动作有关的不相干的帧,并且由于提取显著信息的挑战,这些技术易于失败。虽然动作定位算法被设计为在未修剪的视频上操作,但它们通常需要动作间隔的时间注释,这在大规模数据上非常昂贵且耗时。 因此,开发有竞争力的定位算法更为实际,该算法需要最少的时间注释用于训练。

我们的目标是在未修剪的视频中暂时定位动作。 为此,我们提出了一种新颖的深度神经网络,通过使用测量视频级别分类错误和所选片段的稀疏性的损失函数,学习选择对在每个视频中进行动作识别有用的视频片段的稀疏子集。时间分类**映射(T-CAMs)用于生成用来定位目标动作的一维时间提议。请注意,我们在训练期间不会利用目标数据集中的动作时间注释,并且我们的模型仅使用视频级别类标签进行训练。我们算法的概述如图1所示。

【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译

图1:提出算法的概述。 我们的算法采用双流输入:视频帧的RGB信息和帧间的光流信息,并行执行动作分类和定位。 为了进行定位,从双流中计算时间分类**映射(T-CAMs)并用于生成在时域定位目标动作的一维时间动作提议。

本文的贡献总结如下。

  • 我们引入了一种原理性的深度神经网络架构,用于未经修剪的视频中进行弱监督动作定位,其中动作是从网络识别分段的稀疏子集中检测得到的。
  • 我们提出了一种计算和组合时间分类**映射和类不可知关注的方法,用于目标动作的时间定位。
  • 所提出的弱监督动作定位技术在THUMOS14 [17]上实现了最先进的结果,并在ActivityNet1.3 [14]动作定位任务中表现出色。

本文的其余部分安排如下。 我们在第2节讨论相关工作,并在第3节中描述我们的动作定位算法。第4节介绍了我们实验的细节,第5节总结了本文。

2.相关工作

  • 动作识别
    动作识别旨在识别每个视频的单个或多个动作,并且通常被表述为简单的分类问题。 在CNN成功之前,基于改进的密集轨迹[36]的算法表现出色。 当谈到深度学习时代时,卷积神经网络已被广泛使用。 之后,双流网络[29]和3D卷积神经网络(C3D)[35]是学习视频表达的流行解决方案,这些技术(包括其变体)被广泛用于动作识别。 最近,提出了双流网络和3D卷积的组合,称为I3D [5],作为通用视频表示学习方法。 另一方面,许多算法基于现有表达方法开发了识别动作技术[40,42,8,11,9,26]。

  • 动作定位
    动作定位与动作识别不同,因为它需要检测包含目标动作的时间或时空体积。 存在各种基于深度学习的现有方法,包括结构化分段网络[49]、上下文关系学习[33]、多阶段CNN [28]、帧级动作检测的时间关联[12]以及使用循环神经网络的技术[46,22]。 这些方法中的大多数依赖于监督学习并且使用时间或时空注释来训练模型。 为了方便动作检测和定位,许多算法使用动作提议[4,7,38],这是图像中为了对象检测提出的对象提议方法的扩展。

  • 弱监督学习
    基于弱监督学习的方法很少,仅依靠视频级类标签来定位时域中的动作。 UntrimmedNet [39]使用时间softmax函数学习预切视频片段的关注权重,并将阈值应用于关注权重以生成动作提议。该算法提高了视频级分类性能。但是,仅根据类别不可知的关注来生成动作建议是次优的,并且跨提议使用softmax函数可能无法有效地检测多个实例。 Hide-and-seek [32]提出了一种技术,该技术随机隐藏区域以在弱监督空间对象检测和时间动作定位的推理时间内强制残留关注学习和阈值类**映射。虽然在空间定位任务中工作良好,但该方法在视频中的时间动作定位任务中未能表现出令人满意的性能。两种算法都是由最近在图像中弱监督的对象定位的成功所激发的。特别是,用于动作定位的UntrimmedNet的提出很大程度上依赖于[2]中提出的想法。
    还有一些其他方法[3,16,25]通过在训练期间利用子动作的时间顺序来学习在弱监督环境中定位或分割动作。 这些研究的主要目的是找到顺序呈现的子动作的边界,而我们的方法旨在从输入视频中提取完整动作的时间间隔。

  • 公开可用数据集
    有几个公开可用的动作识别数据集,包括 UCF101 [34]、Sports-1M [18]、HMDB51 [20]、Kinetics [19]和 AVA [13]。 这些数据集中的视频被加以修剪,以便在每个剪辑中出现目标动作。 相比之下,THUMOS14 数据集[17]和 ActivityNet [14]提供了未修剪的视频,其中包含背景帧以及关于哪些帧与目标动作相关的时间注释。 请注意,THUMOS14 和 ActivityNet 中的每个视频可能会在一个帧中发生多个动作。

3.提出算法

我们认为可以通过识别表达重要动作组成的一组关键片段来从视频中识别动作。 因此,我们设计了一个神经网络,学习如何测量视频中每个片段的重要性,并自动选择代表片段的一个稀疏子集来预测视频级别的类标签。训练模型只需要真实的视频级标签。 对于推理时的动作定位,我们首先识别每个视频中的相关类,然后根据时间类**和关注生成时间动作提议,以找到每个相关类的时间位置。我们的弱监督动作识别组成的网络架构如图2所示。我们在本节的其余部分描述了算法的每个步骤。
【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译

图2:我们的弱监督时间动作定位模型的网络架构。 我们首先使用预训练网络提取一组均匀采样的视频片段的特征表示。 关注模块计算每个片段的类不可知的关注权重,其用于通过加权时间平均池化来生成视频级表示。 该表示被给予分类模块,该分类模块可以利用视频级标签以规则的交叉熵损失进行训练。 对关注权重进行L1损失以约束稀疏关注。

3.1.动作分类

为了预测每个视频中的类标签,我们使用预训练的卷积神经网络对一组片段进行采样并从每个片段中提取特征表示。 然后将每个特征向量馈送到关注模块,该关注模块由两个全连接的(FC)层和一个位于两个FC层之间的ReLU层组成。第二个FC层的输出被赋予一个sigmoid函数,该函数强制生成的关注权重在0和1之间。然后,这些类不可知的关注权重用于调整时间平均池化 - 特征向量的加权和 - 创建视频级表示。 我们通过FC层传递此表示,接着通过sigmoid层获得分类得分。
形式上,令【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译是从以时间 t 为中心的视频片段中提取的m维特征表示,λt是相应的关注权值。 视频级表示(由【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译表示)对应于关注加权时间平均池化,这由下式给出:
【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译
其中【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译是来自关注模块的标量输出向量,T 是采样视频片段的总数。 注意力权重向量 λ 以类不可知的方式进行定义。这对于识别与所有感兴趣的动作相关的片段并估计检测到的动作的时间间隔是有用的。

所提出的网络中的损失函数由两项组成,分类损失和稀疏性损失,由下式给出:
【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译
其中【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译表示在视频级分类标签上计算的分类损失,【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译 是关注权重上的稀疏性损失,β 是一个控制两项之间权衡的常数。分类损失基于真实值和【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译之间的标准多标签交叉熵损失(在经过如图2所示的几个层之后),而稀疏性损失由关注权重【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译上的L1范数给出。由于使用了sigmoid函数和L1损失,所有关注权重倾向于有接近0或1的值。注意,整合稀疏性损失与我们声称可以用视频中关键片段的稀疏子集识别动作一致。

3.2.时间类**映射

为了识别与目标动作相对应的时间间隔,我们提取了一些动作间隔候选。 基于[50]中的想法,我们在时域中派生出一维特定类**映射,称为时间类**映射(T-CAM)。 设 【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译表示最终完全连接层的权重参数【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译中的第k个元素,其中上标c表示特定类的索引。类c的最终sigmoid层的输入是
【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译
T-CAM,记为【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译,表示在时间步骤 t 该表示与各个类别的相关性,其中,对于类别c(c = 1, … ,C),每个元素【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译给出如下
【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译
图3示出了由所提出的算法给出的视频中的关注权重和T-CAM输出的示例。我们可以观察到,通过关注权重和T-CAM有效地突出了有识别力的时间区域。而且,一些具有大的关注权重的时间间隔不对应于大的T-CAM值,因为这样的间隔或许表示其他感兴趣的动作。 关注权重测量时间视频片段的一般动作性,而T-CAM表达特定类别的信息。

【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译

图3:THUMOS14数据集[17]中示例视频的ThumDiscus类的真实时间间隔、时间关注以及T-CAM的图示。 图中的水平轴表示时间戳。 在此示例中,ThrowDiscus的T-CAM值提供准确的动作定位信息。 注意,在不对应于真实注释的若干位置处,时间关注权重很大。 这是因为时间关注权重是以类不可知的方式训练的。

3.3.双流CNN模型

我们采用最近提出的I3D模型[5]来计算采样视频片段的特征表示。 使用多种信息流(如RGB和光流)已成为动作识别和检测的标准做法[5,10,29],因为它通常可以显著提升性能。我们还分别使用相同的设置训练RGB和光流两个动作识别网络,如图2所示。 请注意,我们的I3D网络是在Kinetics数据集上预先训练的[19],我们只将它用作特征提取机器,而不对我们的目标数据集进行任何微调。 然后,我们的双流网络被融合以在输入视频中定位动作。 该过程将在后面小节中讨论。

3.4.时间动作定位

对于输入视频,我们根据视频级别分类得分识别相关的类别标签(第3.1节)。 对于每个相关动作,我们生成时间提议,即一维时间间隔,其具有类别特定的置信度分数,对应于可能包含目标动作的片段。

为了生成时间提议,我们同时从RGB和光流两路计算了T-CAM,分别表示为【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译 根据 (4) 使用它们来派生出加权T-CAM、【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译 如下
【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译
注意,λt是稀疏向量λ的元素,乘以λt可以解释为从以下sigmoid函数中对值进行的软选择。与[50]类似,我们将阈值应用于加权T-CAM、【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译 ,以对这些信号进行分段。时间提议是紧接着从每个流中提取的一维连通分量。 使用加权T-CAM而不是直接从关注权重生成动作提议是直观的,因为每个提议应包含一种动作。可选地,我们在阈值化之前对采样的片段之间的加权T-CAM信号进行线性插值,以便以最小的计算加法来改善提议的时间决议。

与原始的基于CAM的边界框提议[50]不同,其仅保留最大的边界框,我们保留所有通过预定义阈值的连通分量。每个提议【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译为每个类c分配一个分数,该分数由提议中所有帧的加权平均T-CAM给出:
【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译
其中【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译 和 α 是用于控制两个模型信号的大小的参数。最后,我们独立地在每个类的时间提议中执行非最大抑制,以去除高度重叠的检测。

3.5.讨论

我们的算法试图通过分别估计通用和特定动作的稀疏关注权重和T-CAM来在时间上定位未修剪视频中的动作。 与现有的 UntrimmedNet [39]相比,所提出的方法具有原理性和新颖性,原因如下。

  • 我们的模型具有独特的深度神经网络架构,带有分类和稀疏性损失。
  • 我们的动作定位过程基于完全不同的传递途径,该途径使用T-CAM的特定于类的动作提议。

注意[39]遵循[2]中使用的类似框架,其中softmax函数用于两个动作类和提议; 它在处理单个视频中的多个动作类和实例时具有严重的局限性。

类似于在ImageNet数据集[6]上预训练图像中的弱监督学习问题,我们利用来自 Kinetics 数据集[19]预训练的I3D模型[5]的特征进行视频表示。 尽管 Kinetics 数据集与我们的目标数据集具有相当大的类重叠,但其视频剪辑大多是短的并且仅包含动作的一部分,这使得它们的特征与我们未修剪的目标数据集中的特征不同。 我们也没有微调I3D模型,我们的网络可能没有针对目标任务和数据集中的类进行优化。

4.实验

本节首先介绍基准数据集和评估设置的详细信息。我们的算法,称为稀疏时间池化网络(STPN),与基于全监督和弱监督学习的其他最先进技术进行了比较。最后,我们分析了算法中各个组成部分的贡献。

4.1.数据集与评估方法

我们在两个流行的动作定位基准数据集 THUMOS14 [17]和 ActivityNet1.3 [14]上评估STPN。 两个数据集都是未修剪的,这意味着视频中包含不存在目标动作的帧,我们不会利用时间注释进行训练。 请注意,在这些数据集中,单个视频中甚至单个帧中可能存在多个动作。

THUMOS14 数据集在其训练、验证和测试集中具有101个动作类的视频级注释,在20个类的验证和测试集子集中具有视频的时间注释。 我们使用20类验证子集训练我们的模型,该子集由200个未修剪的视频组成,不使用时间注释。 我们使用具有时间注释的20类测试子集中的212个视频来评估我们的算法。 此数据集具有挑战性,因为某些视频相对较长(最长26分钟)并包含多个动作实例。 动作的长度变化很大,从不到一秒钟到几分钟。

ActivityNet 数据集是最近推出的未修剪视频中动作识别和定位的基准数据集。 我们使用 ActivityNet1.3,它最初包含10024个视频用于训练、4926个用于验证、5044个用于测试,包含200个活动类。 该数据集包含大量天然视频,涉及语义分类下的各种人类活动。

我们遵循基于在几个不同的交叉联合(IoU)阈值水平上的平均精度均值(mAP)的标准评估协议。 使用 ActivityNet 提供的时间动作定位任务的基准测试代码对两个数据集进行评估。 ActivityNet1.3测试集的结果是通过将结果提交给评估服务器获得的。

4.2.实施细节

我们使用在Kinetics数据集[19]上训练的双流I3D网络[5]来提取视频片段的特征。 对于RGB流,我们将帧的最小尺寸重新缩放为256,并执行大小为224X224的中心裁剪。 对于流动流,我们应用TV-L1光流算法[43]。 I3D模型的输入是以每秒10帧采样的16个(RGB或流)帧的堆叠。

在训练和测试过程中,我们从每个视频以均匀间隔对400个片段进行采样。 在训练期间,我们对采样的片段进行分层随机扰动以进行数据增强。 使用学习率为【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译的Adam优化器训练网络。 在测试时,我们首先拒绝视频级概率低于 0.1 的类,然后检索剩余类的一维时间提议。 我们将(7)中的模态平衡参数 α 设置为 0.5 。 我们的算法在TensorFlow中实现。

4.3.结果

表1总结了 THUMOS14 在过去两年中针对动作定位方法的测试结果。 我们在表格中包括全监督和弱监督的方法。 我们的算法优于其他两种基于弱监督学习的现有方法 [39,32] 。 即使监督水平存在显着差异,我们的算法也能为最近几种完全监督的方法提供有竞争力的表现。 我们还使用从预训练的 UntrimmedNet [39] 双流模型中提取的特征来呈现我们模型的性能,以评估基于弱监督表示学习的算法的性能。 对于此实验,我们将Q调整为 0.1 以处理两种模态的异构信号幅度。 从表1中我们可以看出,STPN 在这个设置中也优于 UntrimmedNet [39] 和 Hide-and-Seek 算法[32]。

表1:我们的算法与 THUMOS14 测试集上的其他近期技术的比较。 我们根据监督级别将算法分为两组。 每个组按时间顺序排序,从旧的到新的。 STPN,包括使用UntrimmedNet功能的版本,在弱监督环境中清晰呈现最先进的性能,甚至可以与许多完全监督的方法抗衡。

【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译
我们还分别在表2和表3中展示了算法在 ActivityNet1.3 数据集的验证和测试集上的性能。 我们可以看到,我们的算法在验证和测试集上都优于一些完全监督的方法。 请注意,排行榜上可用的大多数操作定位结果都专门针对 ActivityNet Challenge 进行了调整,这可能与我们的算法无法直接比较。 据我们所知,这是首次尝试评估该数据集上弱监督的行动定位表现,并将结果报告为未来参考的基准。

表2:ActivityNet1.3 验证集的结果。 带星号(*)的条目来自 ActivityNet Challenge 提交的结果。 注意,[27]是基于[41]的后处理的结果,造成对比困难。

【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译

表3:ActivityNet1.3 测试集的结果。 带星号(*)的条目来自ActivityNet Challenge提交的结果。

【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译

图4显示了THUMOS14数据集的定性结果。如4.1节所述,此数据集中的视频通常很长,并且包含许多动作实例,这些实例可能由多个类别组成。图4a给出了一个示例,其中包含许多动作实例以及我们的预测和相应的TCAM信号。我们的算法有效地确定了许多动作实例的时间边界。在图4b中,所有帧的外观都相似,并且帧之间几乎没有运动。尽管存在这些挑战,我们的模型仍然可以很好地定位目标行动。图4c示出了包含来自两个不同类的动作实例的视频的示例。在视觉上,两个涉及的动作类 - 铅球和抛铁饼 - 在外观上相似(绿草、蓝色衬衫、灰色平台上的人)和运动模态(圆形投掷)。STPN不仅能够定位目标动作,而且能够成功地对动作类别进行分类,尽管存在一些短期误报。 图4d显示了标枪投掷的教学视频,其中我们的算法检测到大多数地面实况动作实例,同时它还会产生许多误报。 误报有两个原因。 首先,标枪投掷的地面实况注释经常丢失,使得真正的检测被视为误报。 第二个根源与片段有关,教练们演示标枪投掷,但只有部分此类动作可见。 这些片段在外观和动作方面类似于真正的标枪投掷动作。
【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译
【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译

图4:THUMOS14 的定性结果。 图中的水平轴表示时间戳(以秒为单位)。 (a)输入视频中有许多动作实例,我们的算法显示了良好的动作定位性能。 (b)从开始到结束,视频的外观保持相似,帧之间几乎没有运动。我们的模型仍然可以定位动作实际发生的时间窗口。(c)单个视频中出现两种不同的动作,它们的外观和动作模态相似。即使在这种情况下,尽管存在一些误报,但所提出的算法能够准确地成功识别两个动作。(d)我们的结果有几个误报,但它们往往来自缺失的地面真实注释。 误报的另一个根源是观察到的动作对目标动作的相似性。

4.4.消融研究

我们研究了在我们的弱监督架构和实施变化中提出的几个组成的贡献。 我们的消融研究中的所有实验都在 THUMOS14 数据集上进行。

  • 结构选择 我们的前提是可以使用视频中的稀疏片段子集来识别动作。 当我们学习动作分类网络时,会采用两种损失项 - 分类损失和稀疏性损失。 我们的基准是没有关注模块和稀疏性损失的结构,它们与[50]中的结构的动机是一致的。 我们还测试另一个带有关注模块但没有稀疏性损失的基准。 图5显示了我们的基准和完整模型之间的比较。 我们观察到稀疏性损失和注意力加权汇集对性能改进做出了重大贡献。
    【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译

    图5:关于结构变化的性能。 关注模块很有用,因为它允许模型明确地关注输入视频的重要部分。 通过“1”损失实现动作识别中的稀疏性可以显着提升性能。

  • 模态选择 如3.3节所述,我们使用双流I3D网络生成时间动作提议并计算注意权重。 我们还结合了两种方式对提议进行评分。 图6说明了每种模态及其组合的有效性。 比较每种模态单独作用时的表现,流动流提供比RGB流更强的性能。 与动作识别类似,这些模态的组合提供了显著的性能改进。
    【深度学习论文翻译】Weakly Supervised Action Localization by Sparse Temporal Pooling Network全文翻译

    图6:关于模态选择的性能。 对于动作定位,光流比RGB帧提供更强的线索,并且这两种特征的组合导致显著的性能改进。

5.结论

我们提出了一种基于深度神经网络的弱监督时间动作定位算法。 通过评估由片段级特征的稀疏加权平均值给出的视频级表示来进行分类,其中稀疏系数在我们的深度神经网络中以稀疏性损失来进行学习。对于弱监督的时间动作定位,提取一维动作提议,从中提取与目标类相关的提议以识别动作的时间间隔。 我们提出的方法在 THUMOS14 数据集上实现了最先进的性能,并且我们首次在 ActivityNet1.3 数据集上报告了弱监督的时间动作定位结果。

参考文献

[1] H. Alwassel, F. C. Heilbron, and B. Ghanem. Action search: Learning to search for human activities in untrimmed videos. In arXiv preprint arXiv:1706.04269, 2017. 6
[2] H. Bilen and A. Vedaldi. Weakly supervised deep detection networks. In CVPR, 2016. 2, 5
[3] P. Bojanowski, R. Lajugie, F. Bach, I. Laptev, J. Ponce, C. Schmid, and J. Sivic. Weakly supervised action labeling in videos under ordering constraints. In ECCV, 2014. 2
[4] S. Buch, V. Escorcia, C. Shen, B. Ghanem, and J. C. Niebles. SST: single-stream temporal action proposals. In CVPR, 2017. 2
[5] J. Carreira and A. Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In CVPR, 2017. 2, 4, 5
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei- Fei. ImageNet: a large-scale hierarchical image database. In CVPR, 2009. 5
[7] V. Escorcia, F. C. Heilbron, J. C. Niebles, , and B. Ghanem. DAPs: deep action proposals for action understanding. In ECCV, 2016. 2, 6
[8] C. Feichtenhofer, A. Pinz, and R. P. Wildes. Spatiotemporal residual networks for video action recognition. In NIPS, 2016. 2
[9] C. Feichtenhofer, A. Pinz, and R. P. Wildes. Spatiotemporal multiplier networks for video action recognition. In CVPR, 2017. 2
[10] C. Feichtenhofer, A. Pinz, and A. Zisserman. Convolutional two-stream network fusion for video action recognition. In CVPR, 2016. 4
[11] R. Girdhar, D. Ramanan, A. Gupta, J. Sivic, and B. Russell. Actionvlad: Learning spatio-temporal aggregation for action classification. In CVPR, 2017. 2
[12] G. Gkioxari and J. Malik. Finding action tubes. In CVPR, 2015. 2
[13] C. Gu, C. Sun, S. Vijayanarasimhan, C. Pantofaru, D. A. Ross, G. Toderici, Y. Li, S. Ricco, R. Sukthankar, C. Schmid, and J. Malik. AVA: A video dataset of spatio-temporally localized atomic visual actions. In arXiv:1705.08421, 2017. 2
[14] F. C. Heilbron, V. Escorcia, B. Ghanem, and J. C. Niebles. ActivityNet: a large-scale video benchmark for human activity understanding. In CVPR, 2015. 2, 5
[15] F. C. Heilbron, J. C. Niebles, and B. Ghanem. Fast temporal activity proposals for efficient detection of human actions in untrimmed videos. In CVPR, 2016. 6
[16] D.-A. Huang, L. Fei-Fei, and J. C. Niebles. Connectionist temporal modeling for weakly supervised action labeling. In ECCV, 2016. 2
[17] Y.-G. Jiang, J. Liu, A. R. Zamir, G. Toderici, I. Laptev, M. Shah, and R. Sukthankar. THUMOS challenge: Action recognition with a large number of classes, 2014. 2, 5
[18] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014. 1, 2
[19] W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev, et al. The kinetics human action video dataset. arXiv preprint arXiv:1705.06950, 2017. 2, 4, 5
[20] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, and T. Serre. HMDB: a large video database for human motion recognition. In ICCV, 2011. 2
[21] I. Laptev. On space-time interest points. IJCV, 64(2-3):107– 123, 2005. 1
[22] S. Ma, L. Sigal, and S. Sclaroff. Learning activity progression in lstms for activity detection and early detection. In CVPR, 2016. 2
[23] A. Montes, A. Salvador, S. Pascual, and X. Giro-i Nieto. Temporal activity detection in untrimmed videos with recurrent neural networks. In 1st NIPS Workshop on Large Scale Computer Vision Systems (LSCVS), 2016. 8
[24] A. Richard and J. Gall. Temporal action detection using a statistical language model. In CVPR, 2016. 6
[25] A. Richard, H. Kuehne, and J. Gall. Weakly supervised action learning with RNN based fine-to-coarse modeling. In CVPR, 2017. 2
[26] Y. Shi, Y. Tian, Y. Wang, W. Zeng, and T. Huang. Learning long-term dependencies for action recognition with a biologically-inspired deep network. In ICCV, 2017. 2
[27] Z. Shou, J. Chan, A. Zareian, K. Miyazawa, and S.-F. Chang. CDC: convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos. CVPR, 2017. 6, 8
[28] Z. Shou, D. Wang, and S.-F. Chang. Temporal action localization in untrimmed videos via multi-stage cnns. In CVPR, 2016. 2, 6
[29] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In NIPS, 2014. 1, 2, 4
[30] B. Singh, T. K. Marks, M. Jones, O. Tuzel, and M. Shao. A multi-stream bi-directional recurrent neural network for finegrained action detection. In CVPR, 2016. 8
[31] G. Singh and F. Cuzzolin. Untrimmed video classification for activity detection: submission to ActivityNet challenge. arXiv preprint arXiv:1607.01979, 2016. 8
[32] K. K. Singh and Y. J. Lee. Hide-and-seek: Forcing a network to be meticulous for weakly-supervised object and action localization. In ICCV, 2017. 2, 6
[33] K. Soomro, H. Idrees, and M. Shah. Action localization in videos through context walk. In ICCV, 2015. 2
[34] K. Soomro, A. R. Zamir, and M. Shah. UCF101: a dataset of 101 human action classes from videos in the wild. Technical Report CRCV-TR-12-01, University of Central Florida, 2012. 2
[35] D. Tran, L. D. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3D convolutional networks. In ICCV, 2015. 1, 2
[36] H. Wang and C. Schmid. Action recognition with improved trajectories. In ICCV, 2013. 1, 2
[37] L. Wang, Y. Qiao, and X. Tang. Motionlets: Mid-level 3d parts for human motion recognition. In CVPR, 2013. 1
[38] L. Wang, Y. Qiao, X. Tang, and L. V. Gool. Actionness estimation using hybrid fully convolutional networks. In CVPR, 2016. 2
[39] L.Wang, Y. Xiong, D. Lin, and L. van Gool. Untrimmednets for weakly supervised action recognition and detection. In CVPR, 2017. 2, 4, 5, 6
[40] L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, and L. val Gool. Temporal segment networks: Towards good practices for deep action recognition. In ECCV, 2016. 1, 2
[41] R. Wang and D. Tao. UTS at Activitynet 2016. AcitivityNet Large Scale Activity Recognition Challenge, 2016. 8
[42] Y. Wang, M. Long, J. Wang, and P. S. Yu. Spatiotemporal pyramid network for video action recognition. In CVPR, 2017. 2
[43] A.Wedel, T. Pock, C. Zach, H. Bischof, and D. Cremers. An Improved Algorithm for TV-L1 Optical Flow. Statistical and geometrical approaches to visual motion analysis. Springer, 2009. 5
[44] Y. Xiong, Y. Zhao, L. Wang, D. Lin, and X. Tang. A pursuit of temporal accuracy in general activity detection. arXiv preprint arXiv:1703.02716, 2017. 8
[45] H. Xu, A. Das, and K. Saenko. R-C3D: region convolutional 3d network for temporal activity detection. In ICCV, 2017. 6, 8
[46] S. Yeung, O. Russakovsky, G. Mori, and L. Fei-Fei. Endto- end learning of action detection from frame glimpses in videos. In CVPR, 2016. 2, 6
[47] J. Yuan, B. Ni, X. Yang, and A. A. Kassim. Temporal action localization with pyramid of score distribution features. In CVPR, 2016. 6
[48] Z. Yuan, J. C. Stroud, T. Lu, and J. Deng. Temporal action localization by structured maximal sums. In CVPR, 2017. 6
[49] Y. Zhao, Y. Xiong, L. Wang, Z. Wu, X. Tang, and D. Lin. Temporal action detection with structured segment networks. In ICCV, 2017. 2, 6, 8
[50] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Learning deep features for discriminative localization. In CVPR, 2016. 4, 8