《Multimodal Keyless Attention Fusionfor Video Classiﬁcation》阅读笔记

一篇基于Attention思想的动作识别论文
作者的主要贡献点主要有二
1、提出了一种简单注意力机制，将其辅助用于RNN模型中。
2、基于注意力机制创新了视频中多模态信息的融合方法。

Keyless Attention

文章的核心内容。作者简化了注意力机制，构建了一个简单的注意力结构。注意力机制的输入为{a1,a2,…,an}。输出为
《Multimodal Keyless Attention Fusionfor Video Classiﬁcation》阅读笔记
其中ai的权重为：

综上可以简单的表示为 c = KeylessAtt({ai}).

Model

《Multimodal Keyless Attention Fusionfor Video Classiﬁcation》阅读笔记

网络的结构体系基于双向LSTM，其中 (x1,x2,…,xT)可以表示为不同时间段的特征。LSTM中的 (h1,h2,…,hT)计算如下：
《Multimodal Keyless Attention Fusionfor Video Classiﬁcation》阅读笔记

σ(·)代表sigmoid函数(上述懂LSTM则不难理解)。
《Multimodal Keyless Attention Fusionfor Video Classiﬁcation》阅读笔记
左边h(f,t)表示t时间下前向传播的h，h(b,t)表示反向传播的h，最终双向LSTM的输出为（hB.1,hB.2,…,hB.T）,将LSTM的输出作为无键注意力机制的输入。

LSTM的优势在于可以全局的联系视频的每个时间段，而注意力机制优势在于找自己想关注的部分。所以直观地说，这种机制可以看作是对视频进行全局查看，然后快速识别出对分类贡献最大的特征。
在得到全局表示g后，再应用几个全连接层(FC)或批处理归一层(BN) 计算第i个视频中类yi的概率。训练过程中损失函数为：
《Multimodal Keyless Attention Fusionfor Video Classiﬁcation》阅读笔记
如果视频中包含多个动作类则