【tempo estimation】annotation correction论文

paper：
A Crowdsourced Experiment for Tempo Estimation of Electronic Dance Music
ISMIR 2018

针对现有的方法在edm数据集GiantStepsTempo上的欠佳表现，作者首先进行了forum的annotation correction，然后新的annotation进行分析，最后两种tempo estimation的方法 schreiber 和 b¨ock 分别在GSNew和GSOrig上的结果进行比较。

除了流程，比较在意的点： track级的global tempo进行估计是MIR music information
retrieval的经典课题。 Accuracy1是在宽容度为4%时正确估计的比例
Accuracy2是在宽容度为2,3，1/2，1/3的octave errors时的正确估计比例。

正常的流程如下：

问题

论文质疑的点是，edm是bass和鼓的重复，应该有非常稳定tempo，所以获得每个类的tempo会非常容易吧。

实验

收集的tempo数据基于30s的segment，记录者在有以下四点的时候被认为记录是有效的：
20个以上的taps
已有的taps覆盖时长15s以上
ITI 标准差<50ms
50BPM <= tempo中值 <= 210BPM

记录时会实时计算的几个指标：
平均BPM：μ
BPM中值：med
ITI tap间隔的标准差：σ
有例外的beat=0的情况会一票肯定

分析

提交结果的质量会因为记录方式的不同有差异吗？

用指标σ/μ评价记录者的tap稳定性显示，有，但可。
tempo分布和metrics

tempo按BPM和salience组成直方图T;
（按理说一个ITI可以算一个BPM，但是一个segment里面只保留了排序后中间的10个ITI，最后只有10个BPM，然后对其分布进行归一化，本来就以10为基数用得着吗？岂可修，应该是选择了10个ITI中值，这样剔除了一些干扰值，然后对剩下的所有ITI进行统计，得到的直方图最多也只有10个峰值，暂且这么说）

P(T)是local peak count；

（越少越好吧，peak越多说明tempo越不稳定。但是也可能一个主峰，其他忽略不计，所以还应该引入每个峰值的大小）
A(T)是最大的两个峰值的差值，进一步确定ambiguity；
JSD(T1,…Tm)track级别的BPM分布

b = n 直方图bin个数
0 <= JSD <= 1
Jensen-ShannonDivergence(JSD)把属于同一个track的所有segments都统计了一遍，可以用来检测一个track内部是不是变化多端，后面也要计算global tempo

统计的结果显示：
peak count =1，2的seg最多了，考虑到峰值的相对差A，seg级别A的均值为0.25。

疑惑：segment对应的多个记录者的多次提交会不会引入bias？毕竟有的seg的提交数和P值都很小呢，但annotation的收集过程中也有对复杂seg多次记录的特点。

当把这些提交按track整合起来的，每个track对应的支持例明显增多了，似乎更可靠了，但是相对应的，peak>1的比例也增加了，害，还好track级别的A值(=0.26)没有差太多。

track自身的不稳定性

对大于2倍标准差的track进行了详细的分析，这些track疑难杂症挺多，有的自身的tempo不稳定，有的是很难记录，或者no beat的。
这些track自身的不稳定性跟他们所属的类别有没有关系呢？

有
techo和trance就比较好，seg级和track级的A均值0.1~0.2;
D&B，electronica和dubstep就不大行，A均值0.3~0.4。
tempo estimation的方法在新收集的annotation上是不是会有更好的结果呢，有的话是不是就能解释以往方法效果不好的部分原因呢？GSNew vs GSOrig

【tempo estimation】annotation correction论文
用了两种te的方法，传统的按键检测方法 schreiber 和双向LSTM网络b¨ock，两个指标都要好一些，但是比其他数据集的95%+还是差不少。
论文最后说，怪label是单值的，用单值作为EDM的label还是不太合适。

【tempo estimation】annotation correction论文

问题

实验

分析

相关推荐