论文笔记:Representation Flow for Action Recognition 【飞桨】【PaddlePaddle】【论文复现】

简介

这是paddle论文复现课程推荐的cvpr2019的一篇视频分类论文。继TSN之后,很多视频分类算法开始使用光流信息来建模运动信息,获得了不错的精度的同时,速度受到了一定的影像。本篇文章提出使用神经网络来建模运动,替代传统的光流,从而实现一个更快的速度。
论文笔记:Representation Flow for Action Recognition 【飞桨】【PaddlePaddle】【论文复现】

方法

本文提出了一个完全可微的卷积层,称作representation flow layer,来代替光流提取特征,并且所有的参数都可以端到端学习。

本文提出的卷积层受TV-L1算法启发设计,TV-L1算法的介绍可以参考知乎大佬的帖子

在TV-L1的基础上,本文的算法去掉了多尺度的计算和warp的过程,从而加快迭代进度。此外,TV-L1公式中的参数都是可以通过端到端的学习得到的,迭代的过程完全可微,因此可以把representation flow layer嵌入到网络的任意一层中。

最终,本文通过实验证明把representation flow layer放在第三个block计算表示流效果最佳,网络结构如图所示:
论文笔记:Representation Flow for Action Recognition 【飞桨】【PaddlePaddle】【论文复现】

其中,representation flow layer的算法如下:
论文笔记:Representation Flow for Action Recognition 【飞桨】【PaddlePaddle】【论文复现】

结果

论文笔记:Representation Flow for Action Recognition 【飞桨】【PaddlePaddle】【论文复现】

最终,本文提出的方法在速度远远快于基于光流的方法的基础上,精度不降反升,达到state of the art。

paddle论文复现课程链接:https://aistudio.baidu.com/aistudio/education/group/info/1340