您的位置: 首页 > 文章 > 论文浏览(45) MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition

论文浏览(45) MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition

分类: 文章 • 2024-07-12 10:33:58

文章目录

0. 前言

相关资料：
论文基本信息
- 领域：行为识别（虽然标题里有tube，但其实做的是行为识别……）
- 作者单位：中国科技大学&微软亚洲研究院
- 发表时间：CVPR 2018

1. 要解决什么问题

3D卷积计算量太大，影响行为识别的效果。
当时的3D模型还是C3D，没花头。

2. 用了什么方法

提出了 Mixed Convolutional Tube (MiCT) 结构，降低计算量、提高性能。
- 说白了就是用一些2D+3D的结构来替换之前C3D中的3D结构。
- 主要灵感来源于：视频数据中，相比 spatial 纬度，temporal 纬度的信息更多，或者说，相邻帧中空间维度的信息随时间变化较小。
3D/2D卷积串联结构
- 先3D，再对temporal纬度每一个分别进行2D。
3D/2D cross-domain residual connection
- 看样子应该是3D和2D的融合
网络总体结构，即 MiCT-Net 结构

3. 效果如何

结果其实不是很想放，只有在UCF101和HMDB51上的结果，没有Kinetics400的

4. 还存在什么问题&有什么可以借鉴

数据融合的这几个结构也许有机会可以尝试一下。
效果在现在看来应该不太行。
表格里写了300+fps，但好像没有硬件型号？。。。