【paper-note7】Several Papers About Video Classification(上)
【paper-note7】Several Papers About Video Classification
Abstract
最近看了点视频分析的论文,归纳总结一下,分别是如下4篇。
- 《Large-scale video classification with convolutional neural networks》Andrej Karpathy
CVPR2014
- 《Two-stream convolutional networks for action recognition in videos》Karen Simonyan
NIPS2014
- 《Learning spatiotemporal features with 3D convolutional networks》Du Tran
ICCV2015
- 《Real-world Anomaly Detection in Surveillance Videos Waqas》Waqas Sultani
CVPR2018
前三篇是视频分类领域,最后一篇属于监控视频异常检测领域。顺带一提,以前的论文笔记长篇大论,比较耗时耗精力,以后要转变一下风格,写简明论文笔记,把核心思想记录下来就可以了。
0. video classification
视频分析和图像最大的不同在于视频多了一个时间维度,如何利用时间维度提高性能降低复杂度是视频分析方法研究中关注比较多的点。很多相似任务,比如分类,检测,分割等,直接用图像的方法逐帧检测当然可行,比如SSD直接在视频上逐帧检测还是可以接受的,但是没有把时间信息利用起来。同时也会引入图像中本来没有的任务,比如temporal action detection要界定时间框,比如目标跟踪,除了检测之外,还要逐帧识别出检测的是同一个东西。
今天要讲的视频分类就是视频分析中最基础的任务,比较general的来看,现在的视频分类方法先从一个视频中采样出一堆clips,比如从一个5分钟的视频抽出不重叠的100个clips,每个clips是10帧,然后把每个clip当作输入,输出就是视频的类别标签。由此看出,这个任务并不需要处理长程依赖问题,但是除了clip-level的feature,有些研究者意识到video-level的feature也很重要,这就需要用RNN把local的clip-level represent 和global的video-level represent结合起来,这是后话了。
1. Slow-Fusion CNN
斯坦福李飞飞组的工作,可以把它当作入门video的第一篇paper,探索性很强的一篇paper,为以后的工作提供了很多参考。
Contribution
-
首先是提供了一个数据集:Sports-1M,在youtube上面采集的一百万+视频,共有487个类别,在这个数据集之前,做视频分类研究用的数据集典型代表有UCF-101和HMDB-51,虽然UCF-101挺大了,有13k个视频,但是对于深度学习来说,样本还是太少,Sports-1M的出现缓解了这个问题。
-
其次,探索了不同分辨率组成的CNN和不同的时间信息(motion信息)连接形式,横向比较网络的性能,找到最好的架构。最后发现,高低分辨率双流网络和slow-fusion的方式带来的效果是最好的。
网络结构也比较简单,主要借鉴了AlexNet,如下:
Figure 1 Slow Fusion Network
- fovea stream是原视频的center crop,context stream是原视频分辨率缩小两倍之后的低分辨率视频。这么做的原因是减小输入尺寸,加快训练速度。用fovea的另一个原因是直觉上,拍视频的时候会把拍摄物体放在画面中央,对画面做中心裁切能减少边角的干扰。这个操作有点像是给中心加权。
Figure 2 approaches for fusing information over temporal dimension
- 此外,在获取时间维度信息上面,采用了slow fusion的操作,就是把10 frames的clips通过三层网络逐渐融合到一起,以此学习到运动信息。
Result
原文做了很多实验,这里讲一个,用Feature Histograms + Neural Net当作baseline,探索要不要学习时间信息和要如何融合时间信息这两个问题。
- 要不要时间信息,这个比较好理解,要时间信息就是用fusion的方法,不要时间信息就是用单帧作为输入。Figure 2 最左边就是单帧作为输入,直接丢弃时间维度信息。针对单帧得到context stream和fovea stream两个网络。
- 如何融合时间信息,可以看Figure 2 剩下的图,针对三种融合方式和平均三种融合方式分别做了实验。
从结果来看,单帧图片用上双流的方法(这里的双流指的是context stream和fovea stream)得到的效果已经足够好了,和slow fusion的效果只差了一点点,所以作者就说,视频分类中时间维度的fusion好像没啥用。
未完待续~