
从正例中取150+从反例中取150 :(C500150)2

10折交叉检验:假设样本分布均匀(每次训练样本中正反例数目一样),所以错误率的期望是50%。
留一法:特殊的交叉验证方法(样本数为m,进行m折交叉验证)错误率为100%

1.BEP 是根据不同分类阀值找到查准率=查全率时的取值
2.而F1是根据不同分类阀值选取的最大F值

3.所以我们不应该把F1中的p和r带入BEP中互相转换,因为他们很可能取的阀值是不同的。
4.对于题目我们可以举一个反例,假设两条P-R曲线在查准率和查全率相等时相交(他们的BEP相等),且两个曲线不相等,会出现F值不同。所以F值高BEP不见得高。

查全率: 真实正例被预测为正例的比例
真正例率: 真实正例被预测为正例的比例
显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例
假正例率: 真实反例被预测为正例的比例
两者并没有直接的数值关系。
2.5 试证明(2.22)AUC=1−lrank

2.21这个公式还是挺难看懂的,大概意思是f(x+)<f(x−)记1分,f(x+)=f(x−)记0.5分,之后累加。在乘m+m−1

结合ROC曲线的原理,让罚值从高到低变换得到对应的真正率和假正率。

根据AUC公式展开,AUC=21i=1∑m−1(TPi+1+FNi+1TPi+1+TPi+FNiTPi)∗(FPi+1+TNi+1FPi+1−FPi+TNiFPi)
而TP+FN=m+ FP+TN=m−
==>
AUC=21i=1∑m−1(m+TPi+1+m+TPi)∗(m−FPi+1−m−FPi)
==>
AUC=m+m−1i=1∑m−1{0TPi新增样本预测为真正新增样本预测为假正
如下图所示,一个单位的矩形面积为m+m−1,三角形面积为21∗m+m−1。并且只有水平和倾斜线段上是有面积的。
1.当正例预测值小于负例时,1个单位水平线段线上矩形个数为m+−TPi+1
2.当正例预测值等于负例时,线段倾斜线上矩形个数为m+−TPi+1/2

同理这就验证了罚分的概念,所以lrank可转化为:
lrank=m+m−1∗(m+m−−i=1∑m−1{0TPi新增样本预测为真正新增样本预测为假正)

错误率可由代价-混淆矩阵得出;
ROC曲线基于TPR与FPR表示了模型在不同截断点取值下的泛化性能。
ROC曲线上的点越靠近(1,0)学习器越完美,但是常需要通过计算等错误率来实现P、R的折衷,而P、R则反映了我们所侧重部分的错误率。

ROC曲线的点对应了一对(TPR,FPR),即一对(FNR,FPR),由此可得一条代价线段(0,FPR)–(1,FNR),由所有代价线段构成簇,围取期望总体代价和它的边界–代价曲线。所以说,ROC对应了一条代价曲线,反之亦然。

