【视频动作识别】Cvpr_2018_Attend and Interact_Higher-Order Object Interactions for Video Understanding

在动作识别领域，人跟物体的交互信息是非常重要的，一个动作的完成包含了多个物体与人的复杂交互。以往的工作很少考虑到这样复杂的交互关系。这篇文章要做的就是对视频中的多个物体的交互建模，利用这样的信息来提高动作识别的准确率。

如何对物体之间的交互建模

物体之间的交互可以通过物体之间的重叠来判断，如果两个物体重叠了，那么说明它们在这个动作发生的时候有一些密切的交互信息。而物体重叠的判断可以通过各自的特征的相似度来进行，因为重叠的物体肯定有一部分特征比较相似。
基于这样的想法，作者设计了如下的结构：
【视频动作识别】Cvpr_2018_Attend and Interact_Higher-Order Object Interactions for Video Understanding
这个结构按照中间的虚线可以分成上下两部分。

Coarse-grained

这部分提取多帧视频的特征。首先对T帧图像分别提取特征，接着把这T个特征向量映射到另一个维度。最后通过SDP Attention提取出T帧图像的整体表达，即全局特征。
其中SDP Attention参考了谷歌的All you need is attention这篇论文中的attention模块的设计。其思想是，把每一帧图像表达成T帧图像的线性和，系数由每一帧图像与其他帧图像的相似性计算得到。最后再把这重表达之后的T个特征向量取个平均池化得到整体的特征 $v_{c}$ 。

Fine-grained

【视频动作识别】Cvpr_2018_Attend and Interact_Higher-Order Object Interactions for Video Understanding
对于某一帧图像，首先用Region Proposal网络生成N个物体候选，对每个生成的物体提取特征，把这N个特征向量映射到另一个维度。这里用了一个LSTM来学习时序关系。LSTM的隐藏层表示物体之间的关系信息。把T帧图像全局特征 $v_{c}$ 与物体之间的关系信息以及object特征concate到一起，再经过SDP Attention，输入LSTM得到下一帧的隐藏层表达。
最终用第T帧时刻的隐藏层以及T帧图像的全局特征来预测视频类别。

【视频动作识别】Cvpr_2018_Attend and Interact_Higher-Order Object Interactions for Video Understanding

如何对物体之间的交互建模

Coarse-grained

Fine-grained

相关推荐