机器学习李宏毅 L38-Ensemble

对于较复杂的模型，其模型可能会造成较大的variance，因此可以通过多个模型进行平均或者投票，得到variance较小的总体模型，如下图所示。

一个容易overfit的模型是决策树，decision tree。而random forest是决策树进行bagging的版本。
机器学习李宏毅 L38-Ensemble

boosting可以用于提升较弱classifier的性能。boosting利用不同的classifier进行互补，从而增强单个classifier的性能。

机器学习李宏毅 L38-Ensemble

对于数据集，可以采用对于数据集赋予不同的权重，从而保证数据集能够被合理利用。
boosting中较为经典的方法为adaboost。其思想为，对于一个训练好的模型，通过调整权重 $u_{n}$ ，从而保证其误差率等于0.5如下图所示。

机器学习李宏毅 L38-Ensemble

Reweight的方法如下图所示，对于分类错误的数据权重进行提高，乘以 $d_{1}$ ；对于分类正确的数据权重降低，除以 $d_{1}$ 。最终保证错误率为0.5，最终可以计算得到一个很简单的d。adaboost算法如下所示，

机器学习李宏毅 L38-Ensemble

经过上述训练过程，可以得到一组classifier，对于这些分类器可以采用下列的方法进行emsemble。可以证明，随着分类器个数的增加，总体的分类误差会越来越小。

机器学习李宏毅 L38-Ensemble

adaboost分类器存在一个现象，随着训练次数的增加，训练误差为0，但是testing data的误差率可以继续下降。

机器学习李宏毅 L38-Ensemble

2018年2月10日

机器学习 李宏毅 L38-Ensemble