论文：ECO: Eﬃcient Convolutional Network for Online Video Understanding（未完）

摘要

目前视频理解技术存在两个问题：

（1）推理的主要部分是在视频中局部进行的，因此，它忽略了几秒钟内动作中的重要关系。

（2）虽然局部方法具有快速的性能帧处理，但是对整个视频的处理效率不高，阻碍了视频的快速检索或对长期活动的在线分类。

在这篇文章中，我们介绍了一种网络架构，它考虑了长期内容，同时实现了每个视频的快速处理。这种架构是基于合并网络中已经存在的长期内容，而不是一种事后融合。再加上一种利用相邻帧大量冗余的采样策略，可以产生高质量的动作分类和视频字幕，其速度高达每秒230个视频，其中每个视频可以包含几百个帧。该方法在所有数据集上实现了具有竞争力的性能，同时比最先进的方法快10到80倍。

网络体系结构

飞桨paddlepaddle论文复现营论文阅读笔记
每个视频被分成N个大小相等的子部分。从每个小节中随机抽取一个帧。样本由规则的二维卷积网络处理，得到每个采样帧的表示。这些表示被叠加并输入到三维卷积网络中，该网络考虑时间关系对动作进行分类。

这个结构提供具有可变帧数的整个视频作为网络的输入。

ECO Lite & ECO Full

飞桨paddlepaddle论文复现营论文阅读笔记

图2（A）中称为ECO简化结构，ECO-Lite。该结构中的3D架构针对学习帧之间的关系进行了优化，但在仅从静态图像内容识别出的简单短期操作中，它往往会浪费容量。因此，我们建议通过并行使用2D网络来扩展架构；见图2（B）（ECO完整结构 ECO Full）。对于简单的动作，这种二维网络结构可以简化处理过程,确保静态图像特征得到必要的重视，而3D网络结构则处理依赖于帧之间关系的更复杂动作。二维网络接收所有样本的特征映射并产生N个特征表示。然后，应用平均池算法得到一个代表静态场景语义的特征向量。

算法过程：

飞桨paddlepaddle论文复现营论文阅读笔记

飞桨paddlepaddle论文复现营论文阅读笔记

飞桨paddlepaddle论文复现营论文阅读笔记

论文：ECO: Eﬃcient Convolutional Network for Online Video Understanding（未完）

摘要

相关工作

网络体系结构

ECO Lite & ECO Full

算法过程：

相关推荐