Music Annotation ICMR2019

A Hierarchical Atentive Deep Neural Network Model for Semantic Music Annotation Integrating Multiple Music Representations

Music Annotation ICMR2019

1 ATT CONV特征提取部分

GLU的forward公式,W和V分别是卷积核
Music Annotation ICMR2019
用元素乘代替卷积核
后一项作为权重,作为一种注意力机制,分别提取WAV和MEL的short-term representation
Music Annotation ICMR2019

2 时序模型部分

  • Bi-LSTM

两个Bi-LSTM分别提取WAV和MEL各自的long-term时序特征

  • dual-state LSTM

比标准的LSTM多加了两个hidden states和cell states
目的是为了挖掘WAV和MEL之间的联系
并将各自的输出与Bi-LSTM的结果concat,并接fc降维dWAV=dMEL=192
各个门和状态的推导如下:
Music Annotation ICMR2019
Music Annotation ICMR2019

3 多层注意力机制

主要为了应对多tag
简单的按时间轴pooling对应多个tag有点吃力
于是把description用self-att学习到多组权重,weight vector升级为weight matrix
Music Annotation ICMR2019
其中,
Music Annotation ICMR2019
weight matrix再和X乘起来,最后的结果多层注意力扩充了多tag的可能。

4 损失函数

Music Annotation ICMR2019
预测损失用交叉熵
Music Annotation ICMR2019
嵌入损失,为了减少weight matrix A的冗余性
Music Annotation ICMR2019
Music Annotation ICMR2019

实验

对网络的三个部分,以及其他方法分别进行了验证
其中对dual-state LSTM的结果显示,MEL优于WAV,dual-state LSTM的到的相关性description和之间时序description搭配使用更佳。
Music Annotation ICMR2019
神奇