【机器学习课程-华盛顿大学】:3 分类 3.5 boosting
1、提出boosting
简单的弱分类器很好计算,但是偏差很大。
下图说明,我们需要更强的分类器。
boosting在1990年代被提出来,现在在工业广泛应用,并且在kaggle比赛中频频获胜。
2、级联分类器
每一个特征进行分类,再进行投票
3、boosting
boosting:聚焦在困难的点上
给更重要的点加更大的权重:
4、adaboost
4.1 计算权重w
加权重的分类误差:
w权值计算公式:
4.2 计算ai
ai是用来矫正分类器犯错的,因此,当分类正确时,减小ai;分类错误时,增大ai。
4.3 ai归一化
经过多次迭代之后,ai可能变得很大,又或者很小,进行ai归一化。
5、adboost举例
(1)根据weighted_error最小,选出ft。然后根据此时的weighted_error,计算出权值w。
(2)重新计算ai
6、adaboost收敛和过拟合
adaboost过拟合:控制弱分类器的数量T。通过验证集来确定。如果数据集很大,就用验证集得到;如果数据集比较小,就通过交叉验证得到。
7、boosting的变种和相关算法
Gradient Boosting:跟adaboost类似
Random forest:随机森林
bagging:将数据集分成若干个子集,每个子集训练一棵树,最后的预测结果是这些树的平均。
8、boosting的影响
boosting是被人为的最有效的分类器之一。
计算机视觉中广泛应用;各大机器学习竞赛获胜算法(Kaggle,KDD Cup);最常用的机器学习系统都是用的级联。
9、测试
答案为:0
x2作为分割特征分类时,全部分类正确,因此错误分类个数为0。weighted_error带入如下公式计算为0