机器学习(七):集成学习-Boosting

机器学习系列主要为 我在国科大研一期间,在《机器学习方法与应用》课程中所学知识概述,以及课后补充学习的内容。

----------------------------------------------------------------------------------------------------------------------------------
 

机器学习(七):集成学习-Boosting

机器学习(七):集成学习-Boosting

Bootstrapping算法:指的就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布的新样本。bootstrapping的运用基于很多统计学假设,因此假设的成立与否影响采样的准确性。

Bagging-Aggregate Bootstrapping:从训练集合D提取n(少于总样本)个样本,学习分类器h;重复多次,最终的分类器是训练得到的多个分类器投票的结果,增加了分类器的稳定性。

Boosting:从训练集合D提取n1(少于总样本)个样本,学习弱分类器h1;从训练集合D提取n2(少于总样本)个被h1错误分类的样本,学习弱分类器h2;从训练结合D提取n3(少于总样本)个被h1,h2错误分类的样本,学习弱分类器h3......最终的分类器是训练得到的多个分类器投票的结果。(弱分类器:错误率<50%的分类器)

Adaboost-Adaptive Boosting:对样本不仅仅是采样,还有 加权(re-weight);最终分类器是弱分类器的加权平均;在下一个循环中,增大被分错的样本权值。