机器学习01 - 基本概念
1. 分类和回归
回归问题和分类问题的本质是一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。
分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测;
回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。
2.泛化、过拟合、欠拟合
泛化:如果一个模型能够对没有见过的数据做出准确预测,就说它能够从训练集泛化到测试集。
- 泛化能力用来表征学习模型对于未知数据的预测能力。
过拟合:模型过度关注了训练集中的细节和噪声,模型过于复杂。在训练集上表现很好,但不能很好的泛化到测试集上
欠拟合:模型没有很好的提取训练集的数据特征,模型过于简单。
在训练集和测试集表现都不好
正则化:给模型加上显性约束,避免过拟合。(加惩罚项)
- 如何处理过拟合 (https://www.cnblogs.com/jianxinzhou/p/4083921.html)以下为内容摘录:
过多的变量(特征),同时只有非常少的训练数据,会导致出现过度拟合的问题。因此为了解决过度拟合,有以下两个办法。
1.减少变量(特征)数量
筛选更为重要的特征作为特征变量 (模型选择)
2.正则化保留所有特征变量,就爱那个其中不重要的变量的影响降低。对模型进行显性约束,避免过拟合。
基本概念:
损失函数:计算的是一个样本的误差
代价函数:是整个训练集上所有样本误差的平均
目标函数:代价函数 + 正则化项