论文浏览(34) Spatiotemporal Action Recognition in Restaurant Videos

0. 前言

更像是技术报告。
使用不同的时空行为检测方法，在一个非标准的数据集（也就是他们自己的一个餐厅数据集上），构建一个产品（production application）
使用的这个餐厅数据集，无法下载，存在很多问题：
- Fast-moving actions
- small bbox
- poor class balance
- imperfect bounding bboxes and labels

使用了YOWO结构，是YOLO在行为识别方向上的扩展，具体的会单独写一篇论文介绍，本文中仅简单描述。
- YOWO 有两个分支，一个从关键帧中获取空间信息，一个提取整个clip的时空特征。
- YOWO 整体结构分为三个部分
  - 特征提取：分为两个部分，一个是从关键帧中提取特征，一个是从clip中提取特征。
  - CFAM（channel fusion and attention mechanism），即注意力机制，通过关键帧中提取的特征作为注意力机制的输入，对clip中提取的特征进行处理。
  - bbox 提取
提出了 Recurrent YOLO
- ConvLSTM要参考论文：Convolutional LSTM network: A machine learning approach for precipitation nowcasting
- 具体实现没看懂，结构如下

比较Yolo与Yowo在行为识别上的性能
- 从结果看，直接使用目标检测算法的效果竟然比行为识别的算法好。。
- 猜测原因如下：
  - 部分行为可以通过单张图片片段，空间信息还是非常重要的。
  - 对于时间敏感的行为（拿起、放下）可能还是Yowo比较好。
  - 数据量还是不够多，比如“拿起”样本多，“放下”样本少，那对于类似的数据判断为“拿起”的概率就高，但因为样本多，所以测试的时候效果也更好……
比较不同backend的Yowo
- 其实我对于 localization recall 算的是啥还不清楚，是时间上的定位还是空间上的定位？
- 这论文排版，我给满分
比较各种训练方法+tricks
本文提出的 Recurrent YOLO 的效果连个比较图都没，效果肯定不行。