CART 决策树
ID3使用信息增益,而C4.5使用增益比率进行拆分。 在此,CART是另一种决策树构建算法。 它可以处理分类和回归任务。 该算法使用名为gini索引的新度量标准来创建分类任务的决策点。
CART树的核心是决策规则将通过GINI索引值决定。
停止条件。
如果我们继续使树完全生长直到每个叶节点对应最低的杂质,那么数据通常会过拟合。如果过早停止拆分,则训练数据的错误不会足够高,并且由于bais会影响性能。因此,在对决策树进行建模时,防止过度拟合和欠拟合是至关重要的,可以通过以下两种方式完成:
1. 对树大小设置约束
2. 修剪树木
对树大小设置约束:
- 为节点拆分提供最少数量的样本。
- 为终端节点(叶)部署最少数量的样本。
- 允许树的最大深度(垂直深度)。
- 终端节点的最大数量。
- 拆分要考虑的最大功能。
修剪树:
修剪是机器学习中的一种技术,它通过删除树的部分来减小决策树的大小。它还降低了最终分类器的复杂度,因此通过减少过度拟合提高了预测准确性。可以通过预修剪或后修剪两种方式完成树修剪。
-预先整理:
如果当前节点没有将熵至少提高到预设(阈值),则停止拆分当前节点。
如果数据点的数量小于某些预设(阈值)值,就停止分区。
将树的深度限制为某个预设(阈值)值。
-修剪后:
可以通过首先允许树生长到最大潜力,然后在计算每个级别的交叉验证准确性之后修剪每个级别的树来完成此操作。
CART的优势:
- 决策树可以固有地执行多类分类。
- 它们提供了大多数模型可解释性,因为它们只是一系列if-else条件。
- 他们可以处理数值和分类数据。
- 特征之间的非线性关系不会影响决策树的性能。
CART的缺点:
- 数据集的微小变化会使树结构不稳定,从而导致差异。
- 如果某些类不平衡,决策树学习者将创建欠适应树。 因此,建议在与决策树拟合之前平衡数据集