机器学习之随机森林
2.2 随机森林
随机森林本质上就是构建很多弱决策树,然后整合成森林,来确定最终的预估结果。
2.2.1 思想
随机森林的主要特点可以总结为如下2点:数据随机性选取,待选特征的随机选取。主要是为了消除过拟合问题。随机森林使用CART树作为弱学习器,生成树的过程中不进行剪枝,确定最终结果时,分类使用投票机制,回归问题使用平方误差最小化。
随机森林根据下面步骤来构建:
- M来表示训练样本的个数,N表示特征数目
- 输入特征数目n,用于确定决策树一个节点的决策结果;其中n应远小于N
- M个训练样本中,有放回抽样的方式,取样k次,形成训练集,并用未抽到样本做预测,评估误差。
- 随机选择n个特征,每棵决策树上每个节点的决策基于这些特征确定。根据这n个特征,计算其最佳的分裂方式
- 最后根据每棵树,以多胜少方式决定分类
2.2.2 随机森林优缺点
优点:
- 很容易查看模型的输入特征的相对重要性
- 可以处理高维数据
- 超参数的数量不多,而且它们所代表的含义直观易懂
- 随机森林有足够多的树,分类器就不会产生过度拟合模型
缺点:
- 使用大量的树会使算法变得很慢,无法做到实时预测
- 对于回归问题,精准度不够
- 抗噪声干扰能力弱,无法自动处理异常样本
- 模型越深越容易过拟合