论文浏览(19) Temporal Action Detection with Structured Segment Networks
0. 前言
1. 要解决什么问题
- 在untrimmed videos中实现时序行为检测,属于离线版时序行为检测。
- 当时存在方法产生的结果存在两个问题:
- 视频数据量太大,导致模型在对 long-term dependencies 建模的时候存在困难。
- 当时的方法不会对同一动作的不同阶段进行建模,也不会评估行为的完整性。(在proposed temporal regions中,行为不完整)
2. 用了什么方法
- 提出了一种 proposal + classification 的模式来实现时空行为检测。
- SSN总体结构如下图所示:
- SSN模型总体步骤分为三步,下面分别介绍。
- 第一步:生成 temporal region proposals。
- 使用了 temporal actionness grouping(TAG) 的方法,生成 proposal。
- TAG的总体流程是:先将视频分为若干snippets,对每个snippets使用TSN进行二分类(判断是否是行为),将二分类结果画成曲线,根据阈值以及grouping criterion生成若干proposal。
- 下图中的蓝色曲线就是不同snippets二分类结果曲线。
- 下图中红色曲线其实是一种可视化展示,即将蓝色曲线倒置,根据不同阈值,获得不同的snippets片段结果。
- 最下图中的四条深浅不一的蓝色结果,就是根据不同阈值形成的不同snippets片段,橙色框体表示通过 grouping criterion 将不同片段组成一个proposal。
- 论文中设定一个完整的动作包括 starting/course/ending 三个阶段。而生成好的proposal属于course,要进行扩展。
- 扩展的方法是:假设course的起止帧编号为
[s, e]
,那令d = e - s
,则start的范围是0[s-d/2, s]
,end的范围是[e, e+d/2]
- 第二步:structured temporal pyramid pooling (STPP)
- 简单说就是对给定的proposal分段(starting/course/ending)提取特征,concat后得到最终结果。
- 特征提取的方法就是上面总体结构图所示,即最终特征分为5个部分。
- 详细过程没细看,等要用到的时候看看源码吧。
- 第三步:Activity and Completeness Classifiers
- 简单说,就是根据第二步提取的特征做分类。
- 分类任务包括两个部分,一是判断行为类别,二是判断proposal动作完整性。
3. 效果如何
- 好的一笔,当时的SOTA
4. 还存在什么问题
-
offline版,不能用于在线版。
-
毕竟是17年的了,现在有更好的方法。