scikit-learn机器学习——第三章复习题

1.什么是过拟合？什么是欠拟合？怎么样去诊断算法是否是过拟合或欠拟合？

过拟合：训练误差很小，验证误差较大。高方差，

欠拟合：训练误差和验证误差都很大。高偏差，

诊断算法：绘制这个模型的学习曲线

2.模型的拟合成本是什么意思？它和模型的准确性有什么关系？

拟合成本：衡量模型与训练样本符合程度的指标

关系：成本函数值越小，模型准确性越高

3.我们有哪些指标来评价一个模型的好坏？

回归模型：

1）SSE 误差平方和

scikit-learn机器学习——第三章复习题

SSE数值大小本身没有意义，随着样本增加，SSE必然增加，也就是说，不同的数据集的情况下，SSE比较没有意义

2）R-square决定系数

scikit-learn机器学习——第三章复习题

3）

Adjusted R-Square (校正决定系数）

scikit-learn机器学习——第三章复习题

分类模型

1）混淆矩阵（Confusion Matrix）

真实情况	预测结果
真实情况	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

查准率（精准率）：Precision = TP / (TP+FP)；

查全率（召回率）：Recall = TP / (TP+FN)；

正确率（准确率）：Accuracy = (TP+TN) / (TP+FP+TN+FN)

2）PR曲线

scikit-learn机器学习——第三章复习题

3）ROC曲线和AUC

scikit-learn机器学习——第三章复习题

4.为什么需要交叉验证数据集？

用来验证参数

5.什么是学习曲线？为什么要画学习曲线？

学习曲线：以Jtrian(θ）和Jcv(θ）作为纵坐标，画出与训练数据集m的大小关系。

目的：直观的观察到模型的准确性与训练集大小的关系

6.打开ch03.02.ipynb,运行直观示例代码。

scikit-learn机器学习——第三章复习题 7.参考ch03.02.ipynb,换成随机森林回归算法sklearn.ensemble.RandomForestRegressor来拟合曲线，并画出学习曲线。提示：读者可以阅读scikit-learn文档以获得帮助。不需要深入了解算法原理，由于scikit-learn提供了一致的接口，对大部分有编程经验的读者这个任务不会是太大的障碍。

scikit-learn机器学习——第三章复习题

8.为什么需要查准率和召回率来评估模型的好坏？查准率和召回率适合那些领域？

有些问题先验概率太低。

scikit-learn机器学习——第三章 复习题

相关推荐

scikit-learn机器学习——第三章复习题