集成学习知识点整理

集成学习：把大大小小的多种算法融合在一起，共同协作来解决一个问题。这些算法可以是不同的算法，也可以是相同的算法。

分类：依据集成思想的架构分为 Bagging ,Boosting, Stacking三种。

分别总结一下：
Bagging：从训练集从进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果。

集成学习知识点整理

Boosting：训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化。(根据前一个子训练集调整后一个子训练集的输出？)对所有基模型预测的结果进行线性综合产生最终的预测结果：

集成学习知识点整理

Stacking：将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练(绿色线的部分)。同理，预测的过程也要先经过所有基模型的预测形成新的测试集(红色线的部分)，最后再对测试集进行预测：

集成学习知识点整理

第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值......

若有n个基模型，则某样本第1-n个特征值都是基模型们的预测值，原先的特征值是往后移的咯？？

总之，就是用基模型形成新的训练集和新的测试集，然后再用新训练出的模型进行预测的意思。

集成学习知识点整理

相关推荐