集成学习知识点整理

集成学习:把大大小小的多种算法融合在一起,共同协作来解决一个问题。这些算法可以是不同的算法,也可以是相同的算法。

分类:依据集成思想的架构分为 Bagging ,Boosting, Stacking三种。

分别总结一下:
Bagging:从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果。

集成学习知识点整理

Boosting:训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化(根据前一个子训练集调整后一个子训练集的输出?)所有基模型预测的结果进行线性综合产生最终的预测结果:

集成学习知识点整理

Stacking:将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值,最后基于新的训练集进行训练(绿色线的部分)。同理,预测的过程也要先经过所有基模型的预测形成新的测试集(红色线的部分),最后再对测试集进行预测:


集成学习知识点整理

第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值......

若有n个基模型,则某样本第1-n个特征值都是基模型们的预测值,原先的特征值是往后移的咯??

总之,就是用基模型形成新的训练集和新的测试集,然后再用新训练出的模型进行预测的意思。