机器学习01 - 基本概念

1. 分类和回归

回归问题和分类问题的本质是一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。

分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测;

回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。

2.泛化、过拟合、欠拟合

泛化:如果一个模型能够对没有见过的数据做出准确预测,就说它能够从训练集泛化到测试集。

  • 泛化能力用来表征学习模型对于未知数据的预测能力。

过拟合:模型过度关注了训练集中的细节和噪声,模型过于复杂。在训练集上表现很好,但不能很好的泛化到测试集上

欠拟合:模型没有很好的提取训练集的数据特征,模型过于简单。
在训练集和测试集表现都不好

正则化:给模型加上显性约束,避免过拟合。(加惩罚项)

过多的变量(特征),同时只有非常少的训练数据,会导致出现过度拟合的问题。因此为了解决过度拟合,有以下两个办法。

1.减少变量(特征)数量

筛选更为重要的特征作为特征变量 (模型选择)

2.正则化

保留所有特征变量,就爱那个其中不重要的变量的影响降低。对模型进行显性约束,避免过拟合。
机器学习01 - 基本概念

基本概念:

损失函数:计算的是一个样本的误差
代价函数:是整个训练集上所有样本误差的平均
目标函数:代价函数 + 正则化项