集成学习Bagging与随机森林
BAGGING有放回抽样
袋中有10个样本,我抽一个放回一个,如此十次,就得到十个数据,以此作为一组新的样本,所以说抽样是随机的
伪代码
1.For t = 1, 2, …, T Do
从数据集S中取样(放回选样)
训练得到模型Ht
对未知样本X分类时,每个模型Ht都得出一个分类,得票最高的即为未知样本X的分类
2.也可通过得票的平均值用于连续值的预测
随机森林是先用BAGGING一样的抽样方法,然后在样本中再随机抽一部分属性(第二重随机)来建决策树,最后再用BAGGING一样的投票方法投票