准确率/召回率/精准率/F值_模型评价

准确率/召回率/精准率/F值

模型选择:对特定任务最优建模方法的选择或者对特定模型最佳参数的选择。

在训练数据集上运行模型(算法)并在测试数据集中测试效果,
迭代进行数据模型的修改, 这种方式被称为交叉验证 (将数据分为训练集测试集,使用训练集构建模型,并使用测 试集评估模型提供修改建议)

模型的选择会尽可能多的选择算法进行执行,并比较执行结果 模型的测试一般以下几个方面来进行比较,分别是准确率/召回率/精准率/F值
准确率(Accuracy)=提取出的正确样本数/总样本数
召回率(Recall)=正确的正例样本数/样本中的正例样本数——覆盖率
精准率(Precision)=正确的正例样本数/预测为正例的样本数
F值=PrecisionRecall2 / (Precision+Recall) (即F值为正确率和召回率的调和平均值)
准确率/召回率/精准率/F值_模型评价
准确率/召回率/精准率/F值_模型评价
准确率/召回率/精准率/F值_模型评价

ROC

ROC(Receiver Operating Characteristic)最初源于20世纪70年代的信号 检测理论,描述的是分类混淆矩阵中FPR-TPR两个量之间的相对变化情况, ROC曲线的纵轴是“真正例率”(True Positive Rate 简称TPR),横轴是“假 正例率” (False Positive Rate 简称FPR)。 如果二元分类器输出的是对正样本的一个分类概率值,当取不同阈值时会 得到不同的混淆矩阵,对应于ROC曲线上的一个点。那么ROC曲线就反映了 FPR与TPR之间权衡的情况,通俗地来说,即在TPR随着FPR递增的情况下,谁 增长得更快,快多少的问题。TPR增长得越快,曲线越往上屈,AUC就越大, 反映了模型的分类性能就越好。当正负样本不平衡时,这种模型评价方式比起 一般的精确度评价方式的好处尤其显著。
准确率/召回率/精准率/F值_模型评价

AUC

AUC的值越大表达模型越好 AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个 面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的 上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准 是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好, 而AUC作为数值可以直观的评价分类器的好坏,值越大越好。 AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值 都能得出完美预测。绝大多数预测的场合,不存在完美分类器。 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值 的话,能有预测价值。 AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。 AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机 猜测

模型评估

回归结果度量
explained_varicance_score:可解释方差的回归评分函数
mean_absolute_error:平均绝对误差
mean_squared_error:平均平方误差
准确率/召回率/精准率/F值_模型评价
准确率/召回率/精准率/F值_模型评价
实际工作用一般采用精准率和召回率的平均调和值F1作为标准,考虑到工作周期,模型的运算速度也是一个重要标准,设备的内存大小,模型的大小问题