《基于标签深度分析的音乐自动标注算法》阅读笔记

题目: 基于标签深度分析的音乐自动标注算法
作者: 萧永乐
单位: 华南理工大学工程硕士学位论文
出版: 未出版

------------- 
问题:文章重点解决什么问题。 

真实音乐标注数据集存在大量标签噪声,影响音乐自动标注深度网络在训练和分析过程的可靠性,导致自动标注效果较差。噪声的不良印象无法直接通过深度神经网络结构优化解决。

 1)音乐自动标注与音乐标签。   

音乐自动标注网络创建一个规模足够大的音乐标注数据集难度很大。

音乐自动标注经常被认为无法完全正确定义的预测问题,因为用户对音乐的标注是主观的,并且可以使用几乎无限数量的有意义的标签对音乐进行描述。

音乐自动标注是一个多类标分类分体。

音乐标注数据集的分析同事需要关注音乐标签的流行程度,因为标注数据集中标签通常分布不均匀,很多不常用的标签会构成长尾问题。

2)标注策略

数据集中的音乐可能在几个不同的角度被“强”标注或“弱”标注。大部分的真实标注数据集都是弱标注数据集。

不同标签表现有差异。

方案:侧重整体性的系统架构或评价体系等。 

1)对一个大规模的音乐标签数据集进行分析,并研究标签噪声对卷积神经网络的影响,深入了解其中特性。研究发现标签噪声使网络在训练过程学习到梗发散的映射关系,导致最终标签效果差。

2)提出标签向量概念,并验证其合理性于有效性。根据数据集于音乐标签分析结果定义标签向量,挖掘音乐标签于音频之间的深层信息,并将标签向量用于音乐自动标签任务。

3)提出基于标签深度分析的音乐标注算法。算法题曲音频多层级特征,结合标签向量,提高音乐自动标注深度网络对标签噪声的鲁棒性,在真实标注数据集上得到更好的表现。
分析原因
解决标签噪声:

1)分析标签错误率来测量百万音乐数据集的标签噪声

2)预测正面标签的准确数量,然后与标签真实数据标胶,可以进一步分析噪声情况

不同标签的训练差异与网络无关、和标签流行度排行无关

不同标签的训练差异与标签的可标注能力有关,可标注能力低的标签在真实的数据集中会有更多错误的负面标注

————>数据集的标签噪声主要分布在负面标签上,不同标签的噪声差异与标签可标注能力相关。可标注能力可以通过召回率评估(当一个标签真正和某个歌曲相关时,该标签会被正面标注在歌曲上的可能性)。
实现:侧重开发环境或重要参照等。 

《基于标签深度分析的音乐自动标注算法》阅读笔记

音频特征提取:卷积神经网络。本文按每段27帧进行切分作为网络的输入。  zero-padding,步长为1,最大池化大小为3,步长为3。ID卷积层(通道数量,过滤器长度) 最大池化层(池化长度)

《基于标签深度分析的音乐自动标注算法》阅读笔记
标签向量提取:将与训练网络学习到的信息提取并定义为标签项链。

标签向量矩阵通过提取网络的最后一个卷积层与输出层之间的全连接参数矩阵得到。

标签向量矩阵W每列限量就是对应的标签向量

标签之间的相似度可以通过:点乘运算、标签向量矩阵得到

《基于标签深度分析的音乐自动标注算法》阅读笔记

2D卷积层(通道数量,(过滤器的频率长度,过滤器的时间长度)) 最大池化层(频谱图中频率的池化长度,时间的池化长度)

《基于标签深度分析的音乐自动标注算法》阅读笔记

音乐标签向量生成

标签向量矩阵的每一列N维隐向量就是对应标签的标签向量(N=32)

由于测试音频没有标注信息,因此音频标签向量只需在算法训练过程被计算。

算法为了保存标签向量中有用的信息,会对所有标签向量进行平均池化,作为测试集音频的缺省标签向量。缺省标签向量一定程度上能提高音乐的效果。

《基于标签深度分析的音乐自动标注算法》阅读笔记

特征聚合:音乐特征提取到音频的各个层级的特征,而标签向量提取网络得到音频与标签之间的深层关系。

为了提取其中最具有代表性的特征,算法对音频每个片段进行最大池化操作,然后分别在各个隐藏层利用平均池化总结这些片段特征,最终得到多个一维特征向量。

《基于标签深度分析的音乐自动标注算法》阅读笔记

最终聚合特征向量的长度就是128+128+256+32=544

最终标签预测

算法会训练另一个全连接网络作为分类器,网络拥有两层全连接隐藏层,神经元数量会根据输入大小设置为512或1024。

算法选用全连接网络作为最终标签预测分类器主要考虑两点:1)在训练过程中,标签向量可以对预测网络的参数进行微调,提高算法对标签噪声的鲁棒性;2)目前性能优异的网络模型如 ResNet[59]和 GoogleNet[60]在使用全局平均池化融合深度特征后,最后仍会使用 softmax等损失函数作为目标函数指导网络学习。同样,标签预测网络最后一个隐藏层会使用 softmax函数将最终各个标签预测值映射到[0, 1]区间上。此外,在网络中加入 Dropout 处理尽量避免过拟合,Dropout 系数设置为 0.5。 
实验评价:侧重性能、安全、正确等。 

训练细节:数据集音频格式均为 MP3,按照 16kHz 采样频率进行采样或重采样。首先将音频转换成分箱大小为 96 的梅尔频谱图,其中短时傅立叶变化的跳跃大小设置为 256。然后使用非线性函数 log(1 + C|A|)对频谱图振幅进行压缩,其中 A 是音频振幅,最终每个音频剪辑拥有 1350 帧。从而音频特征提取网络输入大小为(1, 96, 1350),对应(通道数量,频率分箱数,帧数) 。音频特征提取网络和标签向量提取模块网络均使用指数线性**函数(ELU)作为隐藏层**函数。两个网络与和最终标签分类器的 Dropout 参数都设置为 0.5 以防止过拟合,输出层**函数都为 softmax 函数,使用交叉熵函数作为损失函数。在网络的各个隐藏层后都会加入规范层对输出结果归一化以让学习快速收敛

《基于标签深度分析的音乐自动标注算法》阅读笔记
局限:侧重依赖的假设、未完的工作等。

本算法针对音乐音频对标注数据集进行深入分析与信息提取,没有很好利用音乐领域知识和音乐歌词等额外信息。

算法架构中音频特征提取和标签向量获取方式需要进一步探索。

目前深度网络特征聚合方式除了连接聚合以外,还有基于多视图的聚合方式等,后续将更深入研究不同的特征聚合方式,将音频特征与标签向量有效聚合,得到更好的音频特征表示。

算法目前只预测最常用的 50 个标签,后续需要探究精确预测更多标签的自动标注算法,为音乐搜索和音乐推荐等服务提供更细化的音乐信息,提高音乐服务的质量

展望:

虽然本文专注于研究音乐自动标注任务,但是本文对音乐标注数据集的分析方法与发现也适用于音乐领域或者其他领域的分类任务。

因为分类任务大多数使用弱标注数据集,如图像标注,视频目标检测,或者环境声音识别等,这些任务的数据集样本一般只会标注上正面相关的类标,因此和音乐标注数据集一样存在噪声。这些任务在机器学习的属性和音乐自动标注任务一样,都属于弱监督学习。未来研究将进一步研究针对弱标注数据集的分析方法,从而更好让深度网络从噪声数据集中学习到有效的映射关
系。