百度飞浆定会论文复现之视频分类:ECO: Efficient Convolutional Network for Online Video Understanding

百度飞浆定会论文复现之视频分类:ECO: Efficient Convolutional Network for Online Video Understanding

论文创新点:
本文考虑了视频分类中相邻帧之间的信息冗余,也考虑到较远帧之间的信息的相关性的情况下。本文采取与以前的方法不同,主要有三个方面:
(1) 与TSN类似,本文从整个视频中抽取固定数量的帧来覆盖长范围时间结构(long-range temporal structure)建模,以便理解视频。这样,采样帧跨越整个视频,而与视频的长度无关。
(2) 与TSN不同,本文使用3D网络来学习帧之间的关系,并在整个视频中追踪它们。网络通过端到端的训练来学习这种关系。
(3) 该网络直接提供视频级别的分数,而无需进行事后特征聚合。因此,它可以在线运行,甚至可以在小型计算设备上实时运行。
模型描述:
ECO网络具体结构:

百度飞浆定会论文复现之视频分类:ECO: Efficient Convolutional Network for Online Video Understanding

输入的视频被分成N个RGB 的 segment,分别为子部分Si,i = 1,…,N,它们具有相同的大小,并且在每个子部分中随机采样一帧。这些帧中的每一帧都由单个2D卷积网络(权重共享)处理,其产生编码帧外观的特征表示。
对于得到的特征 volume,采用一个 3D 子网络进行处理,直接输出对应动作类别数目的一维向量。此处采用了 3D-Resnet18 [6]中的部分层。

两个网络模型:ECO Lite和ECO Full
百度飞浆定会论文复现之视频分类:ECO: Efficient Convolutional Network for Online Video Understanding

ECO Lite:模型在前半段利用现有的预训练的图像分类模型对视频各帧进行各自独立的特征提取。然后将各帧得到的特征进行堆叠,在后半段利用3D卷积网络进行跨帧的特征提取,如下图中的A所示。

ECO Full:是考虑到有些视频只需要一帧图像就可以进行分类,不需要3D卷积网络提取视频的时序信息,本文又在后半段加上了2D卷积网络,与3D卷积网络平行,专门提取视频的静态空间特征,如下图中的B所示。

评价指标:
在UFC101和HMDB51数据集上的优秀表现:在这里插入图片描述

相关准备:
数据集:
UCF101、 HMDB51 、Kinetics
相关论文:
Temporal Segment Networks for Action Recognition in Videos[J]. arXiv preprint arXiv:1705.02953, 2017.
Efficient Convolutional Network for Online Video Understanding[J]. arXiv preprint arXiv:1804.09066, 2018.
Convolutional two-stream network fusion for video action recognition[J]. 2016.
复现课程链接:https://aistudio.baidu.com/aistudio/education/group/info/1340