机器学习（西瓜书）第二章

该笔记是在学习周志华老师《机器学习》这本书的过程中所做的笔记

Part1 经验误差与过拟合

精确度=1-错误率

泛化误差：在新样本上的误差

过拟合：学习器把训练样本学得太好了，很可能已经把训练样本自身的一些特点当作了所有潜在样本都具有的一般性质，这样会导致泛化能力下降

产生过拟合的原因：学习能力太强了

欠拟合：对训练样本的一般性质尚未学好

欠拟合产生的原因：学习能力低下

Part2 评估方法

机器学习（西瓜书）第二章

Part3性能度量

机器学习（西瓜书）第二章

方差-偏差的矛盾：

1、训练不足时，学习器拟合能力不强，偏差占主导

2、随着训练程度加深，学习器拟合能力逐渐增强，方差逐渐主导

3、当训练充足后，学习器的拟合能力很强，长查占主导

关于题目的答案：

习题2.1：数据集包含1000个样本，其中500个正例，500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

一个组合问题，从500正反例中分别选出150正反例用于留出法评估，所以可能取法应该是(C150500)2种。

习题2.2：数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

10折交叉检验：由于每次训练样本中正反例数目一样，所以讲结果判断为正反例的概率也是一样的，所以错误率的期望是50%。

留一法：如果留下的是正例，训练样本中反例的数目比正例多一个，所以留出的样本会被判断是反例；同理，留出的是反例，则会被判断成正例，所以错误率是100%。

习题3.3：若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高

F1值的大小与BEP值并没有明确的关系。

两个分类器的F1值得大小与他们的BEP值大小并没有明确的关系(没去找)

习题2.4：试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

查全率: 真实正例被预测为正例的比例

真正例率: 真实正例被预测为正例的比例

显然查全率与真正例率是相等的。

查准率:预测为正例的实例中真实正例的比例

假正例率: 真实反例被预测为正例的比例

两者并没有直接的数值关系。