论文浏览(39) Action Tubelet Detector for Spatio-Temporal Action Localization


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:格勒诺布尔大学 & 爱丁堡大学
    • 发表时间:CVPR 2017

1. 要解决什么问题

  • 之前的时空检测模型都是先检测frame的结果,然后再link。
    • 单独处理每一帧图片并不是最优方法。
    • 没有完全利用到视频的连续性(temporal continuity)
    • 例如下图,从一张图片中并不能判断是要坐下还是起身。
    • 论文浏览(39) Action Tubelet Detector for Spatio-Temporal Action Localization

2. 用了什么方法

  • 提出了ACT-Detector,主要目标就是输入一组图片,输出tubelet。
    • 假设输入有K张图片。
    • 那就是先用普通SSD,对K张图片分别执行特征提取。
    • 对于K张图片对应SSD中指定层的feature map进行拼接,利用拼接结果执行bbox reg。
    • bbox reg的输出结果长度为4K,即K次bbox reg。
    • 分类任务只执行一次。
    • 注意,这里的bbox reg当然也是基于 anchor 的修改,不过是基于 anchor cuboids 的修改(我的感觉就是,每个anchor cuboid是对所有帧的分别制定了anchor)
    • 论文浏览(39) Action Tubelet Detector for Spatio-Temporal Action Localization
  • 双流结构
    • 也是以RGB与光流作为输入,分别经过各自的SSD提取tubelet。
    • 每个分支都是输出若干tubelet以及对应score。
    • 有两种融合方式
      • union fusion:并集。
      • late fusion:没细看,好像意思是对每个anchor cuboids对应的tubelet进行操作。
  • 从action tubelets到spatio-temporal tubes
    • 猜测就是每次得到的tubelets都是一个clip的,需要多个clip的tubelets进行关联。
    • 具体实现细节没细看,不过猜测也就是score+overlap相互结合。

3. 效果如何

  • 有两个性能指标
    • frame-level metrics:检查每一帧的质量,不考虑linking
    • video-level metrics:与frame-level类似,只不过把IoU对比改为spatio-temporal overlap的对比。
    • 论文浏览(39) Action Tubelet Detector for Spatio-Temporal Action Localization
    • 论文浏览(39) Action Tubelet Detector for Spatio-Temporal Action Localization

4. 还存在什么问题&有什么可以借鉴

  • 这里的行为识别感觉都没用上3D CNN,我猜这几个数据集的行为识别难度不是太大……