分类模型与回归模型的评价指标
分类模型评价指标
这里主要针对的二分类场景的评价指标
混淆矩阵
首先需要了解几个概念:
真正TP:预测为正的正样本(预测正确)
假正FP:预测为正的负样本
真负TN:预测为负的负样本(预测正确)
假负FN:预测为负的正样本
准确率
预测正确的样本量/总的样本量 = (TN+FN)/(TN+TP+FN+FP)
精确率
也叫查准率,针对的是预测为正的样本
精确率 = 真正/预测为正 = 真正 / (真正+假正)
召回率
也叫查全率,针对的是实际为正的样本
召回率 = 真正/实际为正 = 真正/ (真正+假负)
** P-R曲线**
横坐标是查全率(召回率),纵坐标是查准率(精确率)
将所有样本的预测结果按照从高到低的顺序进行排序。逐个样本取出,计算样本的查准确率和累积样本的查全率,会进行绘制。曲线上的一个点就代表某个累积样本的查全率与查准率值。当所有累积到最后一个样本时,查全率为1,查准率变得很低。
平衡点代表的是在此模型下F1的最大时 查全和查准率的值
F1分数
衡量精确率与召回率的指标,更接近与较小的一个值,当两者接近的时候,F1值是最大的
2/f1 = 1/精确率 + 1/召回率
ROC曲线
表示真正率与假正率的关系
横坐标代表的假正率,纵坐标代表的是真正率
绘制方法:
将所有样本的预测为正概率按照从高到低的顺序进行排序,绘图是从原点处(0,0)开始,根据每个样本的实际观察值进行ROC曲线的绘制。排序之后的第一个样本如果实际为正则向上绘点,如果实际为负则向右绘点,直到将所有的点绘制完成。如果最后形成一条x=0的直线,则代表所以的样本实际是正的,如果形成一条y=0的直线,则代表所有的样本实际是负的。
AUC
代表的是ROC曲线与XY轴围成的面积,范围通常是0.5~1,越接近1说明效果越好。
直观含义是 任意取一个正样本和负样本,正样本得分大于负样本的概率
KS值
表示的是模型将正样本与负样本区别开的程度,KS值越大,模型的预测效果越好。通常KS>2就可以说有比较好的预测准确率了
KS的具体计算过程:
将所有样本的预测概率按照从高到低的顺序进行排序。
统计每个预测概率段内实际为正样本数量占全部正样本数量的累计值和每个概率段内实际为负的样本数量占全部负样本数量的累计值。
两者之差的最大值就是KS值
评估模型的效果与效率
Lift值
lift值在应用中更加直观和通俗易懂,可以根据业务需求,衡量一定规模群体的模型效果
二元分类模型在具体的场景中,会有一个random rate,为随机响应概率,即实际为正的样本量占总样本的比率(相当于经验值)。当使用分类模型之后,就可以有效锁定群体。有效指的就是将所有样本按照预测概率从高到低排序之后,排名靠前的观察值(比如前10%。。)中,实际为正的观察值占总体正观察值的比例高于random rate。
Lift = (排名靠前的观察值,实际为正的观察值占总体正观察值的比例) / random rate
分子其实就是捕获率
lift值越高,模型效果越好
与lift相关的两个评价指标
响应率
将所有样本按照预测概率按照从高到低的顺序进行排列,将排序后的观察对象等分成10分或者20分等等,这样每个区间就代表了排序最高的前10%的对象。
响应率代表某区间段内实际为正的样本量占该区间或者累计区间内实际为正的比例
捕获率
捕获率代表某区间内或累加区间段内实际样本量占全部样本总量中实际为正的比例
回归模型评价指标
MSE均方误差
衡量预测结果与实际结果的平均误差和
RMSE均方根误差
对均方误差进行开根号的操作,实际上是一个意思,可以降低量级
MAE平均绝对误差
** R-Squared-决定系数**
前面三种评价指标对于不同的应用场景会得到不同的值,对于具体应该取什么值可以代表模型好还是不好,没有统一的标准,只能针对具体的应用场景确定。
R^2可以作为不同应用场景的统一指标,越接近1,模型效果越好
对上述公式进行化简
数学理解:分子代表预测值与实际值的误差和
分母代表原始数据的离散程度,也可以表示不使用模型,将所有预测值都假设为实际值的均值,得到的误差和(瞎猜的误差)
两者相除可以消除原始数据离散成度的影响
R2表示模型的特征变量对目标变量的解释程度,解释程度越高模型越好
r2=0: 说明模型结果和瞎猜一样,误差完全是由原始样本的误差决定的
r2=1:模型效果最佳
校正决定系数
n为样本数量,p为特征值,消除了样本数量特征数量的影响
scikit-learn中的使用