论文浏览(34) Spatiotemporal Action Recognition in Restaurant Videos


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:卡耐基梅隆大学
    • 发表时间:2020.8

1. 要解决什么问题

  • 更像是技术报告。
  • 使用不同的时空行为检测方法,在一个非标准的数据集(也就是他们自己的一个餐厅数据集上),构建一个产品(production application)
  • 使用的这个餐厅数据集,无法下载,存在很多问题:
    • Fast-moving actions
    • small bbox
    • poor class balance
    • imperfect bounding bboxes and labels

2. 用了什么方法

  • 使用了YOWO结构,是YOLO在行为识别方向上的扩展,具体的会单独写一篇论文介绍,本文中仅简单描述。
    • YOWO 有两个分支,一个从关键帧中获取空间信息,一个提取整个clip的时空特征。
    • YOWO 整体结构分为三个部分
      • 特征提取:分为两个部分,一个是从关键帧中提取特征,一个是从clip中提取特征。
      • CFAM(channel fusion and attention mechanism),即注意力机制,通过关键帧中提取的特征作为注意力机制的输入,对clip中提取的特征进行处理。
      • bbox 提取
  • 提出了 Recurrent YOLO
    • ConvLSTM要参考论文:Convolutional LSTM network: A machine learning approach for precipitation nowcasting
    • 论文浏览(34) Spatiotemporal Action Recognition in Restaurant Videos
    • 具体实现没看懂,结构如下
    • 论文浏览(34) Spatiotemporal Action Recognition in Restaurant Videos

3. 效果如何

  • 比较Yolo与Yowo在行为识别上的性能
    • 从结果看,直接使用目标检测算法的效果竟然比行为识别的算法好。。
    • 猜测原因如下:
      • 部分行为可以通过单张图片片段,空间信息还是非常重要的。
      • 对于时间敏感的行为(拿起、放下)可能还是Yowo比较好。
      • 数据量还是不够多,比如“拿起”样本多,“放下”样本少,那对于类似的数据判断为“拿起”的概率就高,但因为样本多,所以测试的时候效果也更好……
    • 论文浏览(34) Spatiotemporal Action Recognition in Restaurant Videos
  • 比较不同backend的Yowo
    • 其实我对于 localization recall 算的是啥还不清楚,是时间上的定位还是空间上的定位?
    • 这论文排版,我给满分
    • 论文浏览(34) Spatiotemporal Action Recognition in Restaurant Videos
  • 比较各种训练方法+tricks
    • 论文浏览(34) Spatiotemporal Action Recognition in Restaurant Videos
  • 本文提出的 Recurrent YOLO 的效果连个比较图都没,效果肯定不行。

4. 还存在什么问题&有什么可以借鉴

  • 后续工作可以借鉴这篇论文,在看完Yowo论文后肯定还要研究本文的内容和源码。

  • 这论文后续可能还会修改?