机器学习-集成学习1
集成学习概述
案例分析
对于不同的癌症症状,教授ABC的预测准确率不尽相同
如何通过三位教授的意见使得对癌症的预测成功率能够最大化呢?
集成学习:通过组合多种模型和方法,集成学习能够有效提高机器学习在数据集上的表现。与单一模型相比,可以产生更好的性能。
为什么模型表现不同?
- 模型假设不同
- 优化技巧不同
- 参数初始化不同
两个重要概念
准确性和多样性(diversity)。准确性指的是个体学习器不能太差,要有一定的准确度;多样性则是个体学习器之间的输出要具有差异性。
分类 - 并行集成学习,如随机森林。利用模型之间的独立性对最终结果做加权预测。
- - 串行集成学习,如Adaboost。通过权衡前面模型错误标记的数据来提升整体表现。
集成学习潜在的思想是即使某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正过来,并且集成学习在各个规模的数据集上都有很好的策略。
模型结合
假设你训练了好几个不同的分类模型,每个分类模型都能达到80%左右的准确率,如何综合分类结果来提高模型表现呢?
投票
最简单的方法就是用投票(voting)的方式,获得“赞同”越多的结果有可能是真实结果。
对于分类问题,投票通常有三种方式可以选择;
- 绝对多数投票(majority voting)
- 相对多数投票(plurality voting)
- 加权投票(weighted voting)
平均
平均(averaging)在回归和分类问题上都有不错的表现,能够提升AUC或者降低均方误差。
和投票类似,平均通常有两种方式可以选择: - 简单平均(simple averaging)
- 加权平均(weighted averaging)