论文浏览(19) Temporal Action Detection with Structured Segment Networks


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时序行为检测
    • 作者单位:港中文&苏黎世联邦理工学院
    • 发表时间:ICCV 2017

1. 要解决什么问题

  • 在untrimmed videos中实现时序行为检测,属于离线版时序行为检测。
  • 当时存在方法产生的结果存在两个问题:
    • 视频数据量太大,导致模型在对 long-term dependencies 建模的时候存在困难。
    • 当时的方法不会对同一动作的不同阶段进行建模,也不会评估行为的完整性。(在proposed temporal regions中,行为不完整)

2. 用了什么方法

  • 提出了一种 proposal + classification 的模式来实现时空行为检测。
  • SSN总体结构如下图所示:
    • 论文浏览(19) Temporal Action Detection with Structured Segment Networks
  • SSN模型总体步骤分为三步,下面分别介绍。
  • 第一步:生成 temporal region proposals。
    • 使用了 temporal actionness grouping(TAG) 的方法,生成 proposal。
    • TAG的总体流程是:先将视频分为若干snippets,对每个snippets使用TSN进行二分类(判断是否是行为),将二分类结果画成曲线,根据阈值以及grouping criterion生成若干proposal。
    • 下图中的蓝色曲线就是不同snippets二分类结果曲线。
    • 下图中红色曲线其实是一种可视化展示,即将蓝色曲线倒置,根据不同阈值,获得不同的snippets片段结果。
    • 最下图中的四条深浅不一的蓝色结果,就是根据不同阈值形成的不同snippets片段,橙色框体表示通过 grouping criterion 将不同片段组成一个proposal。
    • 论文浏览(19) Temporal Action Detection with Structured Segment Networks
    • 论文中设定一个完整的动作包括 starting/course/ending 三个阶段。而生成好的proposal属于course,要进行扩展。
    • 扩展的方法是:假设course的起止帧编号为 [s, e],那令 d = e - s,则start的范围是0 [s-d/2, s],end的范围是 [e, e+d/2]
  • 第二步:structured temporal pyramid pooling (STPP)
    • 简单说就是对给定的proposal分段(starting/course/ending)提取特征,concat后得到最终结果。
    • 特征提取的方法就是上面总体结构图所示,即最终特征分为5个部分。
    • 详细过程没细看,等要用到的时候看看源码吧。
  • 第三步:Activity and Completeness Classifiers
    • 简单说,就是根据第二步提取的特征做分类。
    • 分类任务包括两个部分,一是判断行为类别,二是判断proposal动作完整性。

3. 效果如何

  • 好的一笔,当时的SOTA
    • 论文浏览(19) Temporal Action Detection with Structured Segment Networks

4. 还存在什么问题

  • offline版,不能用于在线版。

  • 毕竟是17年的了,现在有更好的方法。