个体与集成

集成学习（ $e n s e m b l e l e a r n i n g$ ）通过构建并结合多个学习器来完成学习任务，有时候也被称为多分类器系统（ $m u l t i - c l a s s i f i e r s y s t e m$ ）、基于委员会的学习（ $c o m m i t t e e - b a s e d l e a r n i n g$ ）等。

通过聚集多个分类器的预测来提高分类准确率，这些技术成为组合（或者分类器组合）
组合方法由训练数据构建一组基分类器，然后对每个基分类器的预测进行投票来分类。

基本流程：

集成学习基本概念

构建组合分类器的基本方法

通过处理训练数据集

样例：
装袋（bagging）和提升（boosting）
做法：
根据某种抽样分布，通过对原始数据进行再抽样来得到多个训练集。抽样分布决定了一个样本作为训练的可能性的大小，并且可能因为试验而异，然后使用特定的学习算法为每个训练集合建立一个分类器。

通过处理输入特征

样例：
随机森林（Random Forest）
做法：
通过选择输入特征的子集来形成每个训练集合。子集可以随机选择，也可以根据领域专家的建议选择。一些研究表明，对于那些含有大量冗余特征的数据集，这种方法的性能非常好。

通过处理类标号

样例： $E C O C$ 码
做法：
适用于类足够多的情况，通过将类的标号随机划分为两个不相交的子集 $A_{0}$ 和 $A_{1}$ ，把训练数据变化为二类问题。类标号属于子集 $A_{0}$ 的训练样本指派到类 $0$ 而那些类标号属于子集 $A_{1}$ 的被指派到类 $1$ ，然后使用重新标记过的数据来训练一个基分类器。重复重新标记类和构建模型步骤多次，就得到一组基分类器。当遇到一个检验样本的时候，使用每个基分类器 $C_{i}$ 预测他的类标号。如果检测样本被预测为类 $0$ ，则所有属于 $A_{0}$ 的类都的到一票。相反如果它被预测为类 $1$ 则所有属于 $A_{1}$ 的类都得到一票。最后统计选票，将检测结果指派到的得票最高的类。

通过处理学习算法

同一个训练数据集上多次执行算法可能得到不同的模型。

组合方法的一般过程：

集成学习基本概念

投票方法

$V o t e$

平均法

简单平均法

$H (x) = \frac{1}{T} \sum_{i = 1}^{T} h_{i} (x)$

加权平均法

$H (x) = \sum_{i = 1}^{T} w_{i} h_{i} (x)$
其中 $w_{i}$ 是个体学习器 $h_{i}$ 的权重，通常要求 $w_{i} \geq 0, \sum_{i = 1}^{T} w_{i} = 1$

投票法

绝对多数投票法

H (x) = {\begin{aligned} c_{j}, & i f \sum_{i = 1}^{T} h_{i}^{j} (x) > 0.5 \sum_{k = 1}^{N} \sum_{i = 1}^{T} h_{i}^{k} (x) \\ r e j e c t, & o t h e r w i s e \end{aligned}

若某个标记的票过半，则预测结果是该标记，否则拒绝预测。

相对多数投票法

H (x) = c_{\underset{j}{\arg max} \sum_{i = 1}^{T} h_{i}^{j} (x)}

加权投票法

H (x) = c_{\underset{j}{\arg max} \sum_{i = 1}^{T} w_{i} h_{i}^{j} (x)}

其中

w_{i}

是个体学习器

h_{i}

的权重，通常要求

w_{i} \geq 0, \sum_{i = 1}^{T} w_{i} = 1

集成学习基本概念

个体与集成

基本流程：

构建组合分类器的基本方法

通过处理训练数据集

通过处理输入特征

通过处理类标号

通过处理学习算法

组合方法的一般过程：

投票方法

平均法

简单平均法

加权平均法

投票法

绝对多数投票法

相对多数投票法

加权投票法

相关推荐