论文浏览(39) Action Tubelet Detector for Spatio-Temporal Action Localization
0. 前言
- 相关资料:
- 论文基本信息
- 领域:时空行为检测
- 作者单位:格勒诺布尔大学 & 爱丁堡大学
- 发表时间:CVPR 2017
1. 要解决什么问题
- 之前的时空检测模型都是先检测frame的结果,然后再link。
- 单独处理每一帧图片并不是最优方法。
- 没有完全利用到视频的连续性(temporal continuity)
- 例如下图,从一张图片中并不能判断是要坐下还是起身。
2. 用了什么方法
- 提出了ACT-Detector,主要目标就是输入一组图片,输出tubelet。
- 假设输入有K张图片。
- 那就是先用普通SSD,对K张图片分别执行特征提取。
- 对于K张图片对应SSD中指定层的feature map进行拼接,利用拼接结果执行bbox reg。
- bbox reg的输出结果长度为4K,即K次bbox reg。
- 分类任务只执行一次。
- 注意,这里的bbox reg当然也是基于 anchor 的修改,不过是基于 anchor cuboids 的修改(我的感觉就是,每个anchor cuboid是对所有帧的分别制定了anchor)
- 双流结构
- 也是以RGB与光流作为输入,分别经过各自的SSD提取tubelet。
- 每个分支都是输出若干tubelet以及对应score。
- 有两种融合方式
- union fusion:并集。
- late fusion:没细看,好像意思是对每个anchor cuboids对应的tubelet进行操作。
- 从action tubelets到spatio-temporal tubes
- 猜测就是每次得到的tubelets都是一个clip的,需要多个clip的tubelets进行关联。
- 具体实现细节没细看,不过猜测也就是score+overlap相互结合。
3. 效果如何
- 有两个性能指标
- frame-level metrics:检查每一帧的质量,不考虑linking
- video-level metrics:与frame-level类似,只不过把IoU对比改为spatio-temporal overlap的对比。
4. 还存在什么问题&有什么可以借鉴
-
这里的行为识别感觉都没用上3D CNN,我猜这几个数据集的行为识别难度不是太大……