您的位置: 首页 > 文章 > 机器学习之随机森林

机器学习之随机森林

分类: 文章 • 2023-03-29 16:53:35

2.2 随机森林

随机森林本质上就是构建很多弱决策树，然后整合成森林，来确定最终的预估结果。

机器学习之随机森林

2.2.1 思想

随机森林的主要特点可以总结为如下2点：数据随机性选取，待选特征的随机选取。主要是为了消除过拟合问题。随机森林使用CART树作为弱学习器，生成树的过程中不进行剪枝，确定最终结果时，分类使用投票机制，回归问题使用平方误差最小化。

随机森林根据下面步骤来构建：

M来表示训练样本的个数，N表示特征数目
输入特征数目n，用于确定决策树一个节点的决策结果；其中n应远小于N
M个训练样本中，有放回抽样的方式，取样k次，形成训练集，并用未抽到样本做预测，评估误差。
随机选择n个特征，每棵决策树上每个节点的决策基于这些特征确定。根据这n个特征，计算其最佳的分裂方式
最后根据每棵树，以多胜少方式决定分类

2.2.2 随机森林优缺点

优点：

很容易查看模型的输入特征的相对重要性
可以处理高维数据
超参数的数量不多，而且它们所代表的含义直观易懂
随机森林有足够多的树，分类器就不会产生过度拟合模型

缺点：

使用大量的树会使算法变得很慢，无法做到实时预测
对于回归问题，精准度不够
抗噪声干扰能力弱，无法自动处理异常样本
模型越深越容易过拟合