飞桨paddlepaddle论文复现营论文阅读笔记

论文:ECO: Efficient Convolutional Network for Online Video Understanding(未完)

摘要

目前视频理解技术存在两个问题:

(1)推理的主要部分是在视频中局部进行的,因此,它忽略了几秒钟内动作中的重要关系。

(2) 虽然局部方法具有快速的性能帧处理,但是对整个视频的处理效率不高,阻碍了视频的快速检索或对长期活动的在线分类。

在这篇文章中,我们介绍了一种网络架构,它考虑了长期内容,同时实现了每个视频的快速处理。这种架构是基于合并网络中已经存在的长期内容,而不是一种事后融合。再加上一种利用相邻帧大量冗余的采样策略,可以产生高质量的动作分类和视频字幕,其速度高达每秒230个视频,其中每个视频可以包含几百个帧。该方法在所有数据集上实现了具有竞争力的性能,同时比最先进的方法快10到80倍。

相关工作

与以往的方法相比,作者的工作主要有三个方面:

(1)与TSN类似,从整个视频中抽取固定数量的帧来覆盖长时间的时间结构,以便理解视频。这样,采样帧跨越整个视频,而与视频的长度无关。

(2) 与TSN不同,使用3D网络来学习帧之间的关系,并在整个视频中跟踪它们。网络经过端到端的培训来学习这种关系。

(3) 该网络直接提供视频级别的分数,而无需进行事后特征聚合。因此,它可以在线运行,甚至可以在小型计算设备上实时运行。

网络体系结构

飞桨paddlepaddle论文复现营论文阅读笔记
每个视频被分成N个大小相等的子部分。从每个小节中随机抽取一个帧。样本由规则的二维卷积网络处理,得到每个采样帧的表示。这些表示被叠加并输入到三维卷积网络中,该网络考虑时间关系对动作进行分类。

这个结构提供具有可变帧数的整个视频作为网络的输入。

ECO Lite & ECO Full

飞桨paddlepaddle论文复现营论文阅读笔记

图2(A)中称为ECO简化结构,ECO-Lite。该结构中的3D架构针对学习帧之间的关系进行了优化,但在仅从静态图像内容识别出的简单短期操作中,它往往会浪费容量。因此,我们建议通过并行使用2D网络来扩展架构;见图2(B)(ECO完整结构 ECO Full)。对于简单的动作,这种二维网络结构可以简化处理过程,确保静态图像特征得到必要的重视,而3D网络结构则处理依赖于帧之间关系的更复杂动作。二维网络接收所有样本的特征映射并产生N个特征表示。然后,应用平均池算法得到一个代表静态场景语义的特征向量。

算法过程:

飞桨paddlepaddle论文复现营论文阅读笔记