自助采样法

给定包含m 个样本的数据集D ，我们对它进行采样产生数据集D':

每次随机从D 中挑选一个样本将其拷贝放入D'

再将该样本放回初始数据集D 中，使得该样本在下次采样时仍有可能被采到;

这个过程重复执行m 次,我们就得到了包含m个样本的数据集D'

通过自助来样，初始数据集D 中约有36.8% 的样本未出现在采样数据集D'中.于是我们可将D' 用作训练集， Random Forest 用作测试集;这样我们仍有数据总量约1/3 的样本没在训练集中出现, 成为"包外估计" .

优点:自助法在数据集较小、难以有效划分训练/测试集时很有用;此外，自助法能从初始数据集中产生多个不同的训练集，这对集成学习等方法有很大的好处.
缺点:自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差.在初始数据量足够时，留出法和交叉验证法更常用一些.

Bagging

Bagging是并行式集成学习方法最著名的代表，它基于我们在前面介绍的自助采样法。Bagging基本流程：

输入: 训练集D, 基学习算法,训练轮数T.

for t = 1,2,...,T do

end for

输出:

在对预测输出结果结合时，通常对分类任务使用简单投票法，对回归任务使用简单平均法。若同时出现票数相同的两类，可进一步考察学习器投票的置信度来确定最终获胜者。从偏差-方差角度来看，Bagging算法主要关注降低方差，因此在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。

Bagging通过在构建模型的过程中引入样本随机性，来减少基估计器的方差.因为 bagging 方法可以减小过拟合，所以通常在强分类器和复杂模型上使用时表现的很好（完全决策树），相比之下 boosting 方法则在弱模型上表现更好（浅层决策树）

随机森林

RF在以决策树为基学习器构建Bagging集成的基础上，并在在决策树的训练过程中引入了随机属性选择: 传统决策树在选择划分属性时是在当前结点的属性集合中选择一个最优属性；而在RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选取一个最优属性用于划分。这里k控制了随机性的引入程度，若k=d则基决策树的构建与传统决策树相同；若令k=1，则是随机选择一个属性进行划分。一般推荐 Random Forest 。