机器学习01 - 基本概念

1. 分类和回归

回归问题和分类问题的本质是一样，都是针对一个输入做出一个输出预测，其区别在于输出变量的类型。

分类问题是指，给定一个新的模式，根据训练集推断它所对应的类别（如：+1，-1），是一种定性输出，也叫离散变量预测;

回归问题是指，给定一个新的模式，根据训练集推断它所对应的输出值（实数）是多少，是一种定量输出，也叫连续变量预测。

泛化：如果一个模型能够对没有见过的数据做出准确预测，就说它能够从训练集泛化到测试集。

过拟合：模型过度关注了训练集中的细节和噪声，模型过于复杂。在训练集上表现很好，但不能很好的泛化到测试集上

欠拟合：模型没有很好的提取训练集的数据特征，模型过于简单。
在训练集和测试集表现都不好

过多的变量（特征），同时只有非常少的训练数据，会导致出现过度拟合的问题。因此为了解决过度拟合，有以下两个办法。

1.减少变量（特征）数量

筛选更为重要的特征作为特征变量（模型选择）

2.正则化

保留所有特征变量，就爱那个其中不重要的变量的影响降低。对模型进行显性约束，避免过拟合。
机器学习01 - 基本概念

基本概念：

损失函数：计算的是一个样本的误差
代价函数：是整个训练集上所有样本误差的平均
目标函数：代价函数 + 正则化项