《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记

一篇基于Attention思想的动作识别论文
作者的主要贡献点主要有二
1、提出了一种简单注意力机制,将其辅助用于RNN模型中。
2、基于注意力机制创新了视频中多模态信息的融合方法。

Keyless Attention

文章的核心内容。作者简化了注意力机制,构建了一个简单的注意力结构。注意力机制的输入为{a1,a2,…,an}。输出为
《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记
其中ai的权重为:
《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记
综上可以简单的表示为 c = KeylessAtt({ai}).

Model

《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记

网络的结构体系基于双向LSTM,其中 (x1,x2,…,xT)可以表示为不同时间段的特征。LSTM中的 (h1,h2,…,hT)计算如下:
《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记

σ(·)代表sigmoid函数(上述懂LSTM则不难理解)。
《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记
左边h(f,t)表示t时间下前向传播的h,h(b,t)表示反向传播的h,最终双向LSTM的输出为(hB.1,hB.2,…,hB.T),将LSTM的输出作为无键注意力机制的输入。
《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记
LSTM的优势在于可以全局的联系视频的每个时间段,而注意力机制优势在于找自己想关注的部分。所以直观地说,这种机制可以看作是对视频进行全局查看,然后快速识别出对分类贡献最大的特征。
在得到全局表示g后,再应用几个全连接层(FC)或批处理归一层(BN) 计算第i个视频中类yi的概率。训练过程中损失函数为:
《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记
如果视频中包含多个动作类则
《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记

Multimodal Fusion

视频的输入可能为多种信号,比如RGB,光流,音频等等。假设有K类特征,则可以表示为(x(1).1,…,x(1).T),…,(x(k).1,…,x(k).T)这时,需要利用训练好的模型提取多模态特征然后进行融合。作者考虑了四种不同的多模态融合方法,对应图中四个不同的集成点(红色虚线)。

Feature Fusion

简单的特性级融合是最直观的方法之一。每个特征都代表了视频中一个特定的时间片段。将同一段的特征拼接在一起,可以得到该段更详细的表现。最终特征(x1,x2,…,xT)由xt=[x(1).t,…,x(k).t]组成。

LSTM Fusion

类似于第一种方法,只不过融合的不是特征x,而是LSTM的输出h。

Attention Fusion

融合注意力机制的输出,此时是视频级特征的融合。g = [g(1),…,g(K)]

Probability Fusion

平均K个独立模型的输出作为最终输出。每个模型都做自己的独立预测,最后融合预测结果。

实验

《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记

《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记

《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记

《Multimodal Keyless Attention Fusionfor Video Classification》阅读笔记