论文浏览(45) MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition
0. 前言
- 相关资料:
- 论文基本信息
- 领域:行为识别(虽然标题里有tube,但其实做的是行为识别……)
- 作者单位:中国科技大学&微软亚洲研究院
- 发表时间:CVPR 2018
1. 要解决什么问题
- 3D卷积计算量太大,影响行为识别的效果。
- 当时的3D模型还是C3D,没花头。
2. 用了什么方法
- 提出了 Mixed Convolutional Tube (MiCT) 结构,降低计算量、提高性能。
- 说白了就是用一些2D+3D的结构来替换之前C3D中的3D结构。
- 主要灵感来源于:视频数据中,相比 spatial 纬度,temporal 纬度的信息更多,或者说,相邻帧中空间维度的信息随时间变化较小。
- 3D/2D卷积串联结构
- 先3D,再对temporal纬度每一个分别进行2D。
- 3D/2D cross-domain residual connection
- 看样子应该是3D和2D的融合
- 网络总体结构,即 MiCT-Net 结构
3. 效果如何
- 结果其实不是很想放,只有在UCF101和HMDB51上的结果,没有Kinetics400的
4. 还存在什么问题&有什么可以借鉴
-
数据融合的这几个结构也许有机会可以尝试一下。
-
效果在现在看来应该不太行。
-
表格里写了300+fps,但好像没有硬件型号?。。。