简介

这是paddle论文复现课程推荐的cvpr2019的一篇视频分类论文。继TSN之后，很多视频分类算法开始使用光流信息来建模运动信息，获得了不错的精度的同时，速度受到了一定的影像。本篇文章提出使用神经网络来建模运动，替代传统的光流，从而实现一个更快的速度。
论文笔记：Representation Flow for Action Recognition 【飞桨】【PaddlePaddle】【论文复现】

方法

本文提出了一个完全可微的卷积层，称作representation flow layer，来代替光流提取特征，并且所有的参数都可以端到端学习。

本文提出的卷积层受TV-L1算法启发设计，TV-L1算法的介绍可以参考知乎大佬的帖子。

在TV-L1的基础上，本文的算法去掉了多尺度的计算和warp的过程，从而加快迭代进度。此外，TV-L1公式中的参数都是可以通过端到端的学习得到的，迭代的过程完全可微，因此可以把representation flow layer嵌入到网络的任意一层中。

最终，本文通过实验证明把representation flow layer放在第三个block计算表示流效果最佳，网络结构如图所示：
论文笔记：Representation Flow for Action Recognition 【飞桨】【PaddlePaddle】【论文复现】

其中，representation flow layer的算法如下：
论文笔记：Representation Flow for Action Recognition 【飞桨】【PaddlePaddle】【论文复现】

结果

论文笔记：Representation Flow for Action Recognition 【飞桨】【PaddlePaddle】【论文复现】

最终，本文提出的方法在速度远远快于基于光流的方法的基础上，精度不降反升，达到state of the art。

paddle论文复现课程链接：https://aistudio.baidu.com/aistudio/education/group/info/1340

论文笔记：Representation Flow for Action Recognition 【飞桨】【PaddlePaddle】【论文复现】

简介

方法

结果

相关推荐