《Python机器学习基础教程》学习笔记(2) 监督学习基本概念

在具有输入/输出对示例的情况下，需要根据给定输入预测其结果，可采用监督学习

监督学习问题分为分类（classification）与回归（regression）

①分类：分类问题的目标是预测类别标签，这些类别标签来源于我们的预先设定。通常将分类问题分为二分类与多分类，其实并没有什么太大差别。在二分类中，一个类别被称作正类，另一个被称作反类。

②回归：回归问题的目标是预测一个连续值，可在一定的范围内取值。

对于分类问题，预测值是离散值；对于回归问题，预测值是连续值

泛化能力是指模型对新样本的适应能力，亦即预测新样本的准确性

过拟合：构建的模型对于现有信息量来说过于复杂。如果模型拟合时过分关注训练集的细节，那么得到的模型可能在训练集上表现优异，泛化能力却很差，这就发生了过拟合。

欠拟合：构建的模型对于现有信息量来说过于简单。如果模型拟合时对数据没有做到充分考虑，那么得到的模型可能在训练集上表现就很差，这就发生了欠拟合。

①K-近邻算法（k-Nearest Neighbors，KNN）

②线性模型（线性回归，岭回归，lasso回归，逻辑回归，线性SVM）

③朴素贝叶斯（Naive Bayesian）

④决策树（Decision Trees）

⑤决策树集成（随机森林，梯度提升决策树）

⑥核支持向量机（kernel SVM）

⑦神经网络（深度学习）（ANN / Deep Learning）