机器学习-集成学习1

集成学习概述

案例分析
对于不同的癌症症状，教授ABC的预测准确率不尽相同
机器学习-集成学习1
如何通过三位教授的意见使得对癌症的预测成功率能够最大化呢？

集成学习：通过组合多种模型和方法，集成学习能够有效提高机器学习在数据集上的表现。与单一模型相比，可以产生更好的性能。

为什么模型表现不同？

模型假设不同
优化技巧不同
参数初始化不同
两个重要概念
准确性和多样性（diversity）。准确性指的是个体学习器不能太差，要有一定的准确度；多样性则是个体学习器之间的输出要具有差异性。

分类
并行集成学习，如随机森林。利用模型之间的独立性对最终结果做加权预测。
-
串行集成学习，如Adaboost。通过权衡前面模型错误标记的数据来提升整体表现。

集成学习潜在的思想是即使某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正过来，并且集成学习在各个规模的数据集上都有很好的策略。

模型结合

假设你训练了好几个不同的分类模型，每个分类模型都能达到80%左右的准确率，如何综合分类结果来提高模型表现呢？
机器学习-集成学习1
投票
最简单的方法就是用投票（voting）的方式，获得“赞同”越多的结果有可能是真实结果。

对于分类问题，投票通常有三种方式可以选择;

绝对多数投票（majority voting）
相对多数投票（plurality voting）
加权投票（weighted voting）

平均
平均（averaging）在回归和分类问题上都有不错的表现，能够提升AUC或者降低均方误差。

和投票类似，平均通常有两种方式可以选择：
简单平均（simple averaging）
加权平均（weighted averaging）

机器学习-集成学习1

集成学习概述

模型结合

相关推荐