论文浏览(39) Action Tubelet Detector for Spatio-Temporal Action Localization

0. 前言

之前的时空检测模型都是先检测frame的结果，然后再link。
- 单独处理每一帧图片并不是最优方法。
- 没有完全利用到视频的连续性（temporal continuity）
- 例如下图，从一张图片中并不能判断是要坐下还是起身。

提出了ACT-Detector，主要目标就是输入一组图片，输出tubelet。
- 假设输入有K张图片。
- 那就是先用普通SSD，对K张图片分别执行特征提取。
- 对于K张图片对应SSD中指定层的feature map进行拼接，利用拼接结果执行bbox reg。
- bbox reg的输出结果长度为4K，即K次bbox reg。
- 分类任务只执行一次。
- 注意，这里的bbox reg当然也是基于 anchor 的修改，不过是基于 anchor cuboids 的修改（我的感觉就是，每个anchor cuboid是对所有帧的分别制定了anchor）
双流结构
- 也是以RGB与光流作为输入，分别经过各自的SSD提取tubelet。
- 每个分支都是输出若干tubelet以及对应score。
- 有两种融合方式
  - union fusion：并集。
  - late fusion：没细看，好像意思是对每个anchor cuboids对应的tubelet进行操作。
从action tubelets到spatio-temporal tubes
- 猜测就是每次得到的tubelets都是一个clip的，需要多个clip的tubelets进行关联。
- 具体实现细节没细看，不过猜测也就是score+overlap相互结合。