论文浏览(19) Temporal Action Detection with Structured Segment Networks

文章目录

0. 前言
1. 要解决什么问题
2. 用了什么方法
3. 效果如何
4. 还存在什么问题

0. 前言

相关资料：
- arxiv
- github
- 论文解读，官网
论文基本信息
- 领域：时序行为检测
- 作者单位：港中文&苏黎世联邦理工学院
- 发表时间：ICCV 2017

1. 要解决什么问题

在untrimmed videos中实现时序行为检测，属于离线版时序行为检测。
当时存在方法产生的结果存在两个问题：
- 视频数据量太大，导致模型在对 long-term dependencies 建模的时候存在困难。
- 当时的方法不会对同一动作的不同阶段进行建模，也不会评估行为的完整性。（在proposed temporal regions中，行为不完整）

2. 用了什么方法

提出了一种 proposal + classification 的模式来实现时空行为检测。
SSN总体结构如下图所示：
SSN模型总体步骤分为三步，下面分别介绍。
第一步：生成 temporal region proposals。
- 使用了 temporal actionness grouping(TAG) 的方法，生成 proposal。
- TAG的总体流程是：先将视频分为若干snippets，对每个snippets使用TSN进行二分类（判断是否是行为），将二分类结果画成曲线，根据阈值以及grouping criterion生成若干proposal。
- 下图中的蓝色曲线就是不同snippets二分类结果曲线。
- 下图中红色曲线其实是一种可视化展示，即将蓝色曲线倒置，根据不同阈值，获得不同的snippets片段结果。
- 最下图中的四条深浅不一的蓝色结果，就是根据不同阈值形成的不同snippets片段，橙色框体表示通过 grouping criterion 将不同片段组成一个proposal。
- 论文中设定一个完整的动作包括 starting/course/ending 三个阶段。而生成好的proposal属于course，要进行扩展。
- 扩展的方法是：假设course的起止帧编号为 [s, e]，那令 d = e - s，则start的范围是0 [s-d/2, s]，end的范围是 [e, e+d/2]
第二步：structured temporal pyramid pooling (STPP)
- 简单说就是对给定的proposal分段（starting/course/ending）提取特征，concat后得到最终结果。
- 特征提取的方法就是上面总体结构图所示，即最终特征分为5个部分。
- 详细过程没细看，等要用到的时候看看源码吧。
第三步：Activity and Completeness Classifiers
- 简单说，就是根据第二步提取的特征做分类。
- 分类任务包括两个部分，一是判断行为类别，二是判断proposal动作完整性。