集成学习基本概念

个体与集成

集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时候也被称为多分类器系统(multiclassifier system)、基于委员会的学习(committeebased learning)等。

通过聚集多个分类器的预测来提高分类准确率,这些技术成为组合(或者分类器组合)
组合方法由训练数据构建一组基分类器,然后对每个基分类器的预测进行投票来分类。

基本流程:

集成学习基本概念

构建组合分类器的基本方法

通过处理训练数据集

样例:
装袋(bagging)和提升(boosting)
做法:
根据某种抽样分布,通过对原始数据进行再抽样来得到多个训练集。抽样分布决定了一个样本作为训练的可能性的大小,并且可能因为试验而异,然后使用特定的学习算法为每个训练集合建立一个分类器。

通过处理输入特征

样例:
随机森林(Random Forest)
做法:
通过选择输入特征的子集来形成每个训练集合。子集可以随机选择,也可以根据领域专家的建议选择。一些研究表明,对于那些含有大量冗余特征的数据集,这种方法的性能非常好。

通过处理类标号

样例:ECOC
做法:
适用于类足够多的情况,通过将类的标号随机划分为两个不相交的子集A0A1,把训练数据变化为二类问题。类标号属于子集A0的训练样本指派到类0而那些类标号属于子集A1的被指派到类1,然后使用重新标记过的数据来训练一个基分类器。重复重新标记类和构建模型步骤多次,就得到一组基分类器。当遇到一个检验样本的时候,使用每个基分类器Ci预测他的类标号。如果检测样本被预测为类0,则所有属于A0的类都的到一票。相反如果它被预测为类1则所有属于A1的类都得到一票。最后统计选票,将检测结果指派到的得票最高的类。

通过处理学习算法

同一个训练数据集上多次执行算法可能得到不同的模型。

组合方法的一般过程:

集成学习基本概念

投票方法

Vote

平均法

简单平均法

H(x)=1Ti=1Thi(x)

加权平均法

H(x)=i=1Twihi(x)
其中wi是个体学习器hi的权重,通常要求wi0,i=1Twi=1

投票法

绝对多数投票法

H(x)={cj,ifi=1Thij(x)>0.5k=1Ni=1Thik(x)reject,otherwise

若某个标记的票过半,则预测结果是该标记,否则拒绝预测。

相对多数投票法

H(x)=cargmaxji=1Thij(x)

加权投票法

H(x)=cargmaxji=1Twihij(x)

其中wi是个体学习器hi的权重,通常要求wi0,i=1Twi=1