【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

1、提出boosting

简单的弱分类器很好计算,但是偏差很大。

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

下图说明,我们需要更强的分类器。

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

boosting在1990年代被提出来,现在在工业广泛应用,并且在kaggle比赛中频频获胜。

 

2、级联分类器

每一个特征进行分类,再进行投票

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

3、boosting

boosting:聚焦在困难的点上

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

给更重要的点加更大的权重:

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

4、adaboost

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

4.1 计算权重w

加权重的分类误差:

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

w权值计算公式:

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

4.2 计算ai

ai是用来矫正分类器犯错的,因此,当分类正确时,减小ai;分类错误时,增大ai。

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

4.3 ai归一化

经过多次迭代之后,ai可能变得很大,又或者很小,进行ai归一化。

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

5、adboost举例

(1)根据weighted_error最小,选出ft。然后根据此时的weighted_error,计算出权值w。

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

(2)重新计算ai

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

6、adaboost收敛和过拟合

adaboost过拟合:控制弱分类器的数量T。通过验证集来确定。如果数据集很大,就用验证集得到;如果数据集比较小,就通过交叉验证得到。

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

7、boosting的变种和相关算法

Gradient Boosting:跟adaboost类似

Random forest:随机森林

          bagging:将数据集分成若干个子集,每个子集训练一棵树,最后的预测结果是这些树的平均。

 

8、boosting的影响

boosting是被人为的最有效的分类器之一。

计算机视觉中广泛应用;各大机器学习竞赛获胜算法(Kaggle,KDD Cup);最常用的机器学习系统都是用的级联。

 

9、测试

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

 

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting

答案为:0

x2作为分割特征分类时,全部分类正确,因此错误分类个数为0。weighted_error带入如下公式计算为0

【机器学习课程-华盛顿大学】:3 分类 3.5 boosting