机器学习基础概念

机器学习基础

基础概念

有监督学习(supervised learning):

一般是利用带标注的数据集学习出最优函数,再将新的数据输入此函数,根据函数预测出结果。常见的监督学习方法有回归分析和统计分类等

无监督学习(unsupervised learning):

其训练集不带标注,常见的无监督学习方法如聚类。

泛化能力(generalizion ability):

由一种学习方法学习到的模型对位置数据的预测能力,或者说是,训练出的模型在新的未知数据集中的预测能力

欠拟合(underfit):

模型对于已知的用于训练的数据和未知数据的预测能力都很差的现象称之为过拟合。

过拟合(overfit):

在训练模型的过程中,一味追求对训练数据的预测能力,得到的模型的复杂度可能高于真实的模型,训练出的模型包含的参数过多,对于训练的数据拟合良好,但对于其他的未知的数据,预测能力很差。这张现象叫做过拟合。
机器学习基础概念

交叉验证(cross-link validation):

在实际应用中,可能㛮训练的样本数不足的情况,为了得到更好的模型,可以采用交叉验证的方法。其基本思想是使数据得以重复的利用:把给定的数据进行切分,将切分的数据集分为训练集和验证集,在此基础上反复进行训练、测试以及模型的选择。根据切分训练集和测试集的方式,又将交叉验证分为以下三种:

简单交叉验证

S折交叉验证

留一交叉验证

线性回归(linear regression)

原理:

代价函数(cost function):

对于选定的模型,输入自变量X后得到变量Y的值,Y与真实的X的Y值之间的差值,整个训练集上所有样本差值的平均为代价函数

损失函数 (lost function):

损失函数同代价函数,但计算的是一个样本的误差

目标函数:

经验风险和结构风险最优化,这个函数就被称为目标函数。

优化方法(optimize):

优化方法的作用,是通过进行某种方式的训练,来最小化(或最大化)损失函数loss(x)

评估指标:

线性回归模型的性能评价指标

sklearn参数:

Scikit-learn