【tempo estimation】annotation correction论文

paper:
A Crowdsourced Experiment for Tempo Estimation of Electronic Dance Music

ISMIR 2018

针对现有的方法在edm数据集GiantStepsTempo上的欠佳表现,作者首先进行了forum的annotation correction,然后新的annotation进行分析,最后两种tempo estimation的方法 schreiber 和 b¨ock 分别在GSNew和GSOrig上的结果进行比较。

除了流程,比较在意的点: track级的global tempo进行估计是MIR music information
retrieval的经典课题。 Accuracy1是在宽容度为4%时正确估计的比例
Accuracy2是在宽容度为2,3,1/2,1/3的octave errors时的正确估计比例。

正常的流程如下:

问题

论文质疑的点是,edm是bass和鼓的重复,应该有非常稳定tempo,所以获得每个类的tempo会非常容易吧。

实验

收集的tempo数据基于30s的segment,记录者在有以下四点的时候被认为记录是有效的:
20个以上的taps
已有的taps覆盖时长15s以上
ITI 标准差<50ms
50BPM <= tempo中值 <= 210BPM

记录时会实时计算的几个指标:
平均BPM:μ
BPM中值:med
ITI tap间隔 的标准差:σ
有例外的beat=0的情况会一票肯定

分析

  1. 提交结果的质量会因为记录方式的不同有差异吗?

    用指标σ/μ评价记录者的tap稳定性显示,有,但可。

  2. tempo分布和metrics

    tempo按BPM和salience组成直方图T;
    (按理说一个ITI可以算一个BPM,但是一个segment里面只保留了排序后中间的10个ITI,最后只有10个BPM,然后对其分布进行归一化,本来就以10为基数用得着吗?岂可修,应该是选择了10个ITI中值,这样剔除了一些干扰值,然后对剩下的所有ITI进行统计,得到的直方图最多也只有10个峰值,暂且这么说)

  • P(T)是local peak count;

    (越少越好吧,peak越多说明tempo越不稳定。但是也可能一个主峰,其他忽略不计,所以还应该引入每个峰值的大小)

  • A(T)是最大的两个峰值的差值,进一步确定ambiguity;

    【tempo estimation】annotation correction论文

  • JSD(T1,…Tm)track级别的BPM分布

    【tempo estimation】annotation correction论文
    b = n 直方图bin个数
    0 <= JSD <= 1
    Jensen-ShannonDivergence(JSD)把属于同一个track的所有segments都统计了一遍,可以用来检测一个track内部是不是变化多端,后面也要计算global tempo

    统计的结果显示:
    peak count =1,2的seg最多了,考虑到峰值的相对差A,seg级别A的均值为0.25。

疑惑:segment对应的多个记录者的多次提交会不会引入bias?毕竟有的seg的提交数和P值都很小呢,但annotation的收集过程中也有对复杂seg多次记录的特点。

当把这些提交按track整合起来的,每个track对应的支持例明显增多了,似乎更可靠了,但是相对应的,peak>1的比例也增加了,害,还好track级别的A值(=0.26)没有差太多

  1. track自身的不稳定性

    对大于2倍标准差的track进行了详细的分析,这些track疑难杂症挺多,有的自身的tempo不稳定,有的是很难记录,或者no beat的。

  2. 这些track自身的不稳定性跟他们所属的类别有没有关系呢?


    techo和trance就比较好,seg级和track级的A均值0.1~0.2;
    D&B,electronica和dubstep就不大行,A均值0.3~0.4。

  3. tempo estimation的方法在新收集的annotation上是不是会有更好的结果呢,有的话是不是就能解释以往方法效果不好的部分原因呢?GSNew vs GSOrig

【tempo estimation】annotation correction论文
用了两种te的方法,传统的按键检测方法 schreiber 和双向LSTM网络b¨ock,两个指标都要好一些,但是比其他数据集的95%+还是差不少。
论文最后说,怪label是单值的,用单值作为EDM的label还是不太合适。