【视频动作识别】Cvpr_2018_Attend and Interact_Higher-Order Object Interactions for Video Understanding

在动作识别领域,人跟物体的交互信息是非常重要的,一个动作的完成包含了多个物体与人的复杂交互。以往的工作很少考虑到这样复杂的交互关系。这篇文章要做的就是对视频中的多个物体的交互建模,利用这样的信息来提高动作识别的准确率。

如何对物体之间的交互建模

物体之间的交互可以通过物体之间的重叠来判断,如果两个物体重叠了,那么说明它们在这个动作发生的时候有一些密切的交互信息。而物体重叠的判断可以通过各自的特征的相似度来进行,因为重叠的物体肯定有一部分特征比较相似。
基于这样的想法,作者设计了如下的结构:
【视频动作识别】Cvpr_2018_Attend and Interact_Higher-Order Object Interactions for Video Understanding
这个结构按照中间的虚线可以分成上下两部分。

Coarse-grained

这部分提取多帧视频的特征。首先对T帧图像分别提取特征,接着把这T个特征向量映射到另一个维度。最后通过SDP Attention提取出T帧图像的整体表达,即全局特征。
其中SDP Attention参考了谷歌的All you need is attention这篇论文中的attention模块的设计。其思想是,把每一帧图像表达成T帧图像的线性和,系数由每一帧图像与其他帧图像的相似性计算得到。最后再把这重表达之后的T个特征向量取个平均池化得到整体的特征vc

Fine-grained

【视频动作识别】Cvpr_2018_Attend and Interact_Higher-Order Object Interactions for Video Understanding
对于某一帧图像,首先用Region Proposal网络生成N个物体候选,对每个生成的物体提取特征,把这N个特征向量映射到另一个维度。这里用了一个LSTM来学习时序关系。LSTM的隐藏层表示物体之间的关系信息。把T帧图像全局特征vc 与物体之间的关系信息以及object特征concate到一起,再经过SDP Attention,输入LSTM得到下一帧的隐藏层表达。
最终用第T帧时刻的隐藏层以及T帧图像的全局特征来预测视频类别。