机器学习算法------5.1 集成学习算法简介

集成学习

学习目标

  • 了解集成学习中主要解决的两个核心任务
  • 知道bagging集成原理
  • 知道随机森林决策树的建立过程
  • 知道为什么需要随机有放回(Bootstrap)的抽样
  • 应用RandomForestClassifie实现随机森林算法
  • 知道boosting集成原理
  • 知道bagging和boosting的区别
  • 了解gbdt实现过程

5.1 集成学习算法简介

学习目标

  • 了解什么是集成学习
  • 知道机器学习中的两个核心任务
  • 了解集成学习中的boosting和bagging

1 什么是集成学习

机器学习算法------5.1 集成学习算法简介

集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。

2 复习:机器学习的两个核心任务

  • 任务一:如何优化训练数据 —> 主要用于解决欠拟合问题
  • 任务二:如何提升泛化性能 —> 主要用于解决过拟合问题

3 集成学习中boosting和Bagging

机器学习算法------5.1 集成学习算法简介

只要单分类器的表现不太差,集成学习的结果总是要好于单分类器的


4 小结

  • 什么是集成学习【了解】

    • 通过建立几个模型来解决单一预测问题
  • 机器学习两个核心任务【知道】

    • 1.解决欠拟合问题
      • 弱弱组合变强
      • boosting
    • 2.解决过拟合问题
      • 互相遏制变壮
      • Bagging