您的位置: 首页 > 文章 > 百度顶会论文复现（3）：视频分类综述

百度顶会论文复现（3）：视频分类综述

分类: 文章 • 2024-02-01 12:07:04

本节课主要是对视频分类的发展进行了介绍，包括任务与背景，分类方法，前沿进展等。课程地址为：https://aistudio.baidu.com/aistudio/education/preview/502023。

文章目录

1. 任务与背景
2. 视频分类方法

2.1 双流网络方法
2.2 静态图像特征聚合
2.3 3D卷积方法

3. 前沿进展

3.1 高效视频网络
3.2 运动增强的RGB分类
3.3 快慢信息结合网络
3.4 光流表示学习
3.5 时序金字塔网络

1. 任务与背景

这里首先给出了什么是视频分类的定义：将一段视频分类到预先制定类别集合中的某一个或多个。
百度顶会论文复现（3）：视频分类综述
然后给出了视频分类的发展历程：分为前深度学习时代和深度学习时代。

2. 视频分类方法

视频与图像不同，它由空间维度和时间维度组成。包括静态图像特征，运动特征，音频特征，外部特征等。由于其特征之多和复杂，视频处理可以看作是CV皇冠上的明珠。
目前主要的方法有：双流网络，静态图像特征聚合，3D卷积。

百度顶会论文复现（3）：视频分类综述

2.1 双流网络方法

借鉴人类大脑处理视觉信息的方式，研究人员设计了全新的网络结构，实现静态图像特征和运动信息统一，互补的提取和分类，主要论文有以下三篇。

`NIPS-2014`	`CVPR-2016`	`ECCV-2016`

2.2 静态图像特征聚合

方法主要是提取视频不同时刻多帧图像的特征，聚合生成视频级特征，进而分类。
百度顶会论文复现（3）：视频分类综述
主要代表论文有以下4篇：
首先是用CNN+LSTM提取静态图像特征并构建时序关系，然后进行分类。

`CVPR-2015`	`ICMR-2016`

然后也有学者对视频图像和光流进行特征提取，也有的学者使用Attention进行最后分类：
百度顶会论文复现（3）：视频分类综述

2.3 3D卷积方法

3D卷积是从水平、垂直和时序三个方向同时提取视频时空特征，但是计算量太大。
百度顶会论文复现（3）：视频分类综述
后来又学者借鉴残差结构，降低了3D卷积的计算复杂度，处理时先在图像空间卷积，再在时间维度卷积。

后来学者又进行了改进，提出了图像+视频联合预训练的方法。

3. 前沿进展

最新的视频处理方法主要有：高效视频网络，运动增强的RGB分类，快慢信息结合网络，光流表示学习，时序金字塔网络。

3.1 高效视频网络

这是本次课程论文复现里的一篇：ECO网络。
百度顶会论文复现（3）：视频分类综述

3.2 运动增强的RGB分类

这篇论文也是开创性的，避免了光流的计算。
百度顶会论文复现（3）：视频分类综述

百度顶会论文复现（3）：视频分类综述

3.3 快慢信息结合网络

这篇论文设计了两条通道，快速与慢速通道，降低了计算量。
百度顶会论文复现（3）：视频分类综述

3.4 光流表示学习

这篇论文主要工作是把光流信息用网络学习了出来。
百度顶会论文复现（3）：视频分类综述

3.5 时序金字塔网络

这也是本次课程需要复现的论文之一，
百度顶会论文复现（3）：视频分类综述

最后是未来展望：
百度顶会论文复现（3）：视频分类综述