机器学习-集成学习1

集成学习概述

案例分析
对于不同的癌症症状,教授ABC的预测准确率不尽相同
机器学习-集成学习1
如何通过三位教授的意见使得对癌症的预测成功率能够最大化呢?
机器学习-集成学习1
机器学习-集成学习1
集成学习:通过组合多种模型和方法,集成学习能够有效提高机器学习在数据集上的表现。与单一模型相比,可以产生更好的性能。
机器学习-集成学习1
为什么模型表现不同?

  • 模型假设不同
  • 优化技巧不同
  • 参数初始化不同
    两个重要概念
    准确性和多样性(diversity)。准确性指的是个体学习器不能太差,要有一定的准确度;多样性则是个体学习器之间的输出要具有差异性。
    机器学习-集成学习1
    分类
  • 并行集成学习,如随机森林。利用模型之间的独立性对最终结果做加权预测。
    -机器学习-集成学习1
  • 串行集成学习,如Adaboost。通过权衡前面模型错误标记的数据来提升整体表现。
    机器学习-集成学习1
    集成学习潜在的思想是即使某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正过来,并且集成学习在各个规模的数据集上都有很好的策略。
    机器学习-集成学习1

模型结合

假设你训练了好几个不同的分类模型,每个分类模型都能达到80%左右的准确率,如何综合分类结果来提高模型表现呢?
机器学习-集成学习1
投票
最简单的方法就是用投票(voting)的方式,获得“赞同”越多的结果有可能是真实结果。
机器学习-集成学习1
对于分类问题,投票通常有三种方式可以选择;

  • 绝对多数投票(majority voting)
    机器学习-集成学习1
    机器学习-集成学习1
    机器学习-集成学习1
  • 相对多数投票(plurality voting)
  • 加权投票(weighted voting)
    机器学习-集成学习1
    机器学习-集成学习1
    平均
    平均(averaging)在回归和分类问题上都有不错的表现,能够提升AUC或者降低均方误差。
    机器学习-集成学习1
    和投票类似,平均通常有两种方式可以选择:
  • 简单平均(simple averaging)
  • 加权平均(weighted averaging)
    机器学习-集成学习1
    机器学习-集成学习1
    机器学习-集成学习1