机器学习 李宏毅 L38-Ensemble

Ensemble之bagging

对于较复杂的模型,其模型可能会造成较大的variance,因此可以通过多个模型进行平均或者投票,得到variance较小的总体模型,如下图所示。

机器学习 李宏毅 L38-Ensemble
机器学习 李宏毅 L38-Ensemble

一个容易overfit的模型是决策树,decision tree。而random forest是决策树进行bagging的版本。
机器学习 李宏毅 L38-Ensemble

Ensemble之boosting

boosting可以用于提升较弱classifier的性能。boosting利用不同的classifier进行互补,从而增强单个classifier的性能。

机器学习 李宏毅 L38-Ensemble

对于数据集,可以采用对于数据集赋予不同的权重,从而保证数据集能够被合理利用。
boosting中较为经典的方法为adaboost。其思想为,对于一个训练好的模型,通过调整权重un,从而保证其误差率等于0.5如下图所示。

机器学习 李宏毅 L38-Ensemble

Reweight的方法如下图所示,对于分类错误的数据权重进行提高,乘以d1;对于分类正确的数据权重降低,除以d1。最终保证错误率为0.5,最终可以计算得到一个很简单的d。adaboost算法如下所示,

机器学习 李宏毅 L38-Ensemble

经过上述训练过程,可以得到一组classifier,对于这些分类器可以采用下列的方法进行emsemble。可以证明,随着分类器个数的增加,总体的分类误差会越来越小。

机器学习 李宏毅 L38-Ensemble

adaboost分类器存在一个现象,随着训练次数的增加,训练误差为0,但是testing data的误差率可以继续下降。

Ensemble之Stacking

机器学习 李宏毅 L38-Ensemble

2018年2月10日