《Python机器学习基础教程》学习笔记(2) 监督学习基本概念
概述
监督学习的使用范畴
在具有输入/输出对示例的情况下,需要根据给定输入预测其结果,可采用监督学习
监督学习的类别
监督学习问题分为分类(classification)与回归(regression)
①分类:分类问题的目标是预测类别标签,这些类别标签来源于我们的预先设定。通常将分类问题分为二分类与多分类,其实并没有什么太大差别。在二分类中,一个类别被称作正类,另一个被称作反类。
②回归:回归问题的目标是预测一个连续值,可在一定的范围内取值。
对于分类问题,预测值是离散值;对于回归问题,预测值是连续值
泛化、过拟合与欠拟合
泛化能力是指模型对新样本的适应能力,亦即预测新样本的准确性
过拟合:构建的模型对于现有信息量来说过于复杂。如果模型拟合时过分关注训练集的细节,那么得到的模型可能在训练集上表现优异,泛化能力却很差,这就发生了过拟合。
欠拟合:构建的模型对于现有信息量来说过于简单。如果模型拟合时对数据没有做到充分考虑,那么得到的模型可能在训练集上表现就很差,这就发生了欠拟合。
监督学习算法
①K-近邻算法(k-Nearest Neighbors,KNN)
②线性模型(线性回归,岭回归,lasso回归,逻辑回归,线性SVM)
③朴素贝叶斯(Naive Bayesian)
④决策树(Decision Trees)
⑤决策树集成(随机森林,梯度提升决策树)
⑥核支持向量机(kernel SVM)
⑦神经网络(深度学习)(ANN / Deep Learning)