【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)

《FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding》这篇论文来自港中文的林达华团队,是今年CVPR2020的满分论文,特此写博客分析一下。
论文地址:https://arxiv.org/abs/2004.06704
项目地址:https://sdolivia.github.io/FineGym/

摘要

首先,视频中的动作理解一直是计算机视觉领域的热点研究方向。原有的工作一般都是面向粗粒度的动作识别与分析,在许多现有数据集上相关研究已经遇到了瓶颈。这篇工作则独树一帜,提出了一个大规模、高质量、层级化标注的细粒度人体动作数据集:FineGym。在这一数据集上,对现有的各类动作识别方法从多个层级多个角度进行了分析,得了很多有趣的结果,对领域一些固有结论产生了挑战,也为未来的研究带来了一些启发。
值得什么人关注? 对视频动作识别、检测、生成等感兴趣的研究者。此外,论文中的分析表明在FineGym上现有的人体检测和姿态估计方法的结果误差很大,因而从事相关工作的研究者也可关注一下。

数据集

首先是数据集的标注,非常复杂
【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)
如上图所示,它从时域上进行了了两层划分:动作与子动作,。一个长视频中会出现多个动作,它们的开头和结尾会被标注。同时,一个动作内部会有多个子动作,这些子动作的时域位置会被标注。动作由事件类别来描述,而时域上更细粒度的子动作可以由组类别和元素类别两种粒度进行描述;在语义上进行了三层划分:从粗到细分别是:事件类别(Event),组类别(Set),元素类别(Element)
【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)上图为论文中给出的一个例子,详细解释了如何划分Label.

注意到,在进行元素划分的时候,使用了决策树的方法,根据动作属性详细划分,这种方法可以有效避免类别之间混淆以及从属问题。
【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)

FineGym一共收集了体操领域10种不同的事件类别(男子六种+女子四种)共三百多场专业比赛。对女子的四种事件(女子跳马,女子平衡木,女子*体操和女子高低杠)进行了“3+2”的细粒度标注。基于这四种事件类别,FineGym定义和筛选了15个组类别,并由此进一步定义了530种不同的元素类别,其*354类目前具有子动作数据,这种情况源自于体操动作本身使用的不均衡性。
【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)

上表为此数据集的一个统计情况。
此外,论文也给出了该数据集的主要特点:
高质量
包括以下几个方面:
原始数据高质量:*及世界级的体操运动比赛视频,动作来自于专业运动员;
类别定义清晰:借鉴体操运动标准和完备的动作参考手册,避免了类别增多带来的定义不清楚、类别间语义不一致等问题;
高分辨率:所收集的视频大多为720P和1080P,更好地保留动作的视觉细节,也为后续更加精细的标注(如关键点)提供了良好的基础;
高标注质量:FineGym的标注团队经历了严苛的培训、测试与筛选,最终的标注结果也接受了层层的质量把控。
丰富性与多样性:
丰富的层级结构: 时域方面,FineGym具有两层结构,而类别语义的层级则有三层;
粒度最细的一层具有530个定义清楚的类,超过了现有的所有细粒度数据集;
FineGym中的视频具有多样的拍摄角度,其动作也涵盖了各异的人体姿态,甚至包括很多不常见、高难度的极端姿态。
完全以人体动作为中心:FineGym所收集和标注的体操数据,其背景都有很强的相似和一致性,研究的关注点完全放在视频中的运动员身上。这一点避免了模型在识别过程中喜欢“走捷径”的问题,即只学习背景、物体等与动作无关的信息来完成分类。
决策树标注过程带来了比动作标签本身更丰富的信息:从根节点到叶子节点的路径还原了整个分类过程,并且记录了某一类运动最显著的属性标签集合。同时,在叶子节点中,每一个类别的动作还标注了其难度分数,可用于动作难度评估的研究。

实验

粗粒度实验

【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)

先简要在较粗糙粒度上(event&set),进行了相关实验和分析。选取了当前业界广泛应用的方法——TSN。
表格中mean是代表mean class accuracy,top 1是top1 hit accuracy。
在最粗粒度的事件类别(event)识别中(也是当前动作识别领域的数据集和方法所关注和研究的粒度),appearance特征的贡献远远超过了Flow(光流)特征,并且准确率已经趋于饱和。然而一旦往更细的粒度(set)前进,光流特征的作用则开始逐渐凸显。

细粒度

【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)

使用的方法主要有:
2D+1D模型,包括TSN, TRN, TSM和ActionVLAD;
基于3D卷积核的方法:I3D, Non-local;
最近火起来的基于人体关键点的识别方法,代表为ST-GCN。

可见很多SOTA在此数据集上效果并不好
除了动作识别,文中还选取动作时域检测的开源代表方法——SSN,在动作和子动作两个不同的粒度上进行了实验。实验结果表明,对细粒度的子动作进行准确时域定位仍没有得到很好地解决。

【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)

【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)

分析

Is sparse sampling sufficient for action recognition?

【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)
稀疏采样(sparse sampling) 在之前动作识别经典数据集如UCF101上十分有效,然而遇到了FineGym却遭遇了“滑铁卢”。如上面的实验数据所示,在UCF上只用2.7%的采样率(5帧)TSN的识别准确率就达到了饱和,而在FineGym上的元素类别识别则需要采样30%(12帧)以上的数据帧。

这佐证了FineGym细粒度动作数据的信息丰富性。

How important is temporal information?

基于视频的视觉理解,和图像理解相比,最大的特点应该就在于提供了丰富的时域信息。但是在以往的视频动作数据集上,时域信息的效用并没有得到非常明显的体现。

但是在FineGym上,对时域动态信息的整合和利用就显得尤为重要。我们在文中用三个不同的实验分析证明了这一观点,

a) 对TSN而言,在给定不同的组类别进行元素类别识别时,光流信息相比于RGB特征对结果贡献显著更多;
b) TRN学习了帧间关系来建模时域信息,然而一旦将输入的帧的顺序打乱,TRN 的表现将大幅下降。
c) 对于没有时域建模的TSN来讲,当测试的帧数逐渐超过训练帧数,识别的表现会因为引入新信息而变好并饱和;而对于在模型设计中嵌入了时域建模的TSM来说,当测试帧数和训练帧数的差异过大,学到的时域模型不再适用,识别准确率将“一落千丈”。
【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)

Does pre-training on large-scale video datasets help?

【论文笔记】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding(CVPR2020满分论文)
在视频动作识别领域,一个约定俗成的观念就是在大规模的视频数据集上进行预训练能够 大幅提升模型的识别准确率。
例如,在Kinetics数据集上进行预训练的I3D模型,在UCF101上的识别准确率可以从84.5%提升到97.9%。然而这种视频数据集预训练在FineGym上并不能屡试屡验,如图所示。

说明之前的数据集都是比较粗粒度且依赖场景的,这个数据集更加关注动作本身!

What can not be handled by current methods/modules?

最后,通过详细的实验分析和观察,我们启发性地提出了一些让当前方法“力不从心”的问题:

  1. 密集、快速的运动,如各种空翻;
  2. 空间语义信息的细微差别,如腿部姿态的些微不同;
  3. 比较复杂的时域动态线索,如运动方向的变化;
  4. 基本的推理能力,如数出空翻的次数等。

此外,FineGym对一些动作理解的基础模块提出了更高的要求,如视频中的人物位置检测,人体关键点定位等。

总而言之,这篇数据集的工作量巨大,作者深度剖析了动作识别的基本特征,由于深度学习是一个黑盒子,传统的识别方法虽然有效但是无法确定它识别依据是真正的动作本身还是动作发生的场景等外在因素,这个数据集特别关注了动作的特点,因此使得很多SOTA方法在它面前折腰。此外,这篇论文也相当于挖了一个新坑,非常值得有不断创新的方法在其上进行探索研究。