【机器学习】摘记-1

1:机器学习的大框架

【机器学习】摘记-1

决策树核心：每回合都是最大信息增益，直到S为0。

【机器学习】摘记-1
其他指标衡量分割好坏：基尼不确定性，错分率。

决策树分类常见问题及评价指标

数据属性问题
常见离散属性：
二元属性，标称属性，适合决策树分类算法。
数值型等连续型属性：
如年龄，身高，血压，在进行分类时采用连续属性离散化，即分段分区间的形式，才能很好的适应决策树算法。
过拟合问题
两种误差定义
训练误差：分类算法对于现有训练样本集的拟合程度。
泛化误差：代表此方法的泛化能力，即对于新的样本数据的分类能力如何。
两种误差比较
若模型的训练误差较大，则称此分类模型欠拟合。
若模型的训练误差低但是泛化误差比较高，称此分类模型过拟合。
解决方法
欠拟合：增加分类属性的数量，选取合适的分类方法，提高模型对于训练样本的拟合程度。
过拟合：把噪声学进模型了，通过划分样本集，70%样本训练决策树模型，30%样本检测模型，提高模型的泛化能力或者通过减少决策树的深度来减少过拟合的可能性。
分类效果评价
指标：训练误差，泛化误差，准确率，错误率
对于一般二分类问题，分类情况有：
真正类TP
假反类FN
假正类FP
真反类TN

3.3 用受试者工作特征曲线(ROC)曲线来作为综合评价指标
ROC曲线与两端点所连线段组成的面积为AUC，AUC值越大，表示分类模型的预测准确性越高。

交叉验证主要用于防止模型过于复杂而引起的过拟合，是一种评价训练数据的数据集泛化能力的统计方法。其基本思想是将原始数据进行划分，分成训练集和测试集，训练集用来对模型进行训练，测试集用来测试训练得到的模型，以此来作为模型的评价指标。

将原始数据D按比例划分，比如7：3，从D中随机选择70%的数据作为训练集train_data，剩余的作为测试集test_data(绿色部分)。如下图所示，这里的数据都只利用了一次，并没有充分利用，对于小数据集，需要充分利用其数据的信息来训练模型，一般会选择K折交叉验证。