Music Annotation ICMR2019

A Hierarchical Atentive Deep Neural Network Model for Semantic Music Annotation Integrating Multiple Music Representations

1 ATT CONV特征提取部分

GLU的forward公式，W和V分别是卷积核
Music Annotation ICMR2019
用元素乘代替卷积核
后一项作为权重，作为一种注意力机制，分别提取WAV和MEL的short-term representation

2 时序模型部分

Bi-LSTM

两个Bi-LSTM分别提取WAV和MEL各自的long-term时序特征

dual-state LSTM

比标准的LSTM多加了两个hidden states和cell states
目的是为了挖掘WAV和MEL之间的联系
并将各自的输出与Bi-LSTM的结果concat，并接fc降维dWAV=dMEL=192
各个门和状态的推导如下：
Music Annotation ICMR2019

3 多层注意力机制

主要为了应对多tag
简单的按时间轴pooling对应多个tag有点吃力
于是把description用self-att学习到多组权重，weight vector升级为weight matrix
Music Annotation ICMR2019
其中,

weight matrix再和X乘起来，最后的结果多层注意力扩充了多tag的可能。