机器学习之随机森林

2.2 随机森林

随机森林本质上就是构建很多弱决策树,然后整合成森林,来确定最终的预估结果。

机器学习之随机森林

2.2.1 思想

随机森林的主要特点可以总结为如下2点:数据随机性选取,待选特征的随机选取。主要是为了消除过拟合问题。随机森林使用CART树作为弱学习器,生成树的过程中不进行剪枝,确定最终结果时,分类使用投票机制,回归问题使用平方误差最小化。

随机森林根据下面步骤来构建:

  1. M来表示训练样本的个数,N表示特征数目
  2. 输入特征数目n,用于确定决策树一个节点的决策结果;其中n应远小于N
  3. M个训练样本中,有放回抽样的方式,取样k次,形成训练集,并用未抽到样本做预测,评估误差。
  4. 随机选择n个特征,每棵决策树上每个节点的决策基于这些特征确定。根据这n个特征,计算其最佳的分裂方式
  5. 最后根据每棵树,以多胜少方式决定分类

2.2.2 随机森林优缺点

优点:

  • 很容易查看模型的输入特征的相对重要性
  • 可以处理高维数据
  • 超参数的数量不多,而且它们所代表的含义直观易懂
  • 随机森林有足够多的树,分类器就不会产生过度拟合模型

缺点:

  • 使用大量的树会使算法变得很慢,无法做到实时预测
  • 对于回归问题,精准度不够
  • 抗噪声干扰能力弱,无法自动处理异常样本
  • 模型越深越容易过拟合