统计学习简要介绍
统计学习简要介绍
统计学习介绍目录
1.统计学习基本概念
2.统计学习模型三要素
3.统计学习要解决的问题
统计学习基本概念
什么是统计学习?统计学习从数据出发,通过对已知数据的分析来实现对未知数据的预测。而对数据的预测与分析是通过构建概率统计模型来实现的,统计学习的目标就是考虑学习什么样的模型和如何学出这个模型,以使模型能对数据进行准确的预测与分析。
统计学习三要素
-
模型:是在参数空间中的参数影响下,从一个空间到另一个空间的映射 f(x),即经过何种变换使一个空间到另一个空间
输入空间、输出空间:
直白点,若Y=f(x),x的所有可能取值的集合就是输入空间,Y的所有可能取值的集合就是输出空间
假设空间(也称函数空间):
函数的所有可能表示,即所有能从输入空间到输出空间的变换,如f(x) = ax+b,假设空间中确定的函数 f 的输出值被称为预测值。
参数空间:
是一个 n 维的欧式空间,若映射形如f(x) = ax+b,则a,b数对的所有集合称为参数空间。显而易见,如果确定了a和b,那f(x)便能求出。所以函数空间一般由参数空间来确定,两者息息相关。如上面的参数空间就是二维的欧式空间。 -
策略:
度量预测值和真实值差异的准则或方法,一般称为度量预测值和真实值差异的准则或方法,一般称为loss 函数别名:惩罚项
统计学习中常用的损失函数有以下几种:
(1) 0-1损失函数(0-1 lossfunction):
(2) 平方损失函数(quadraticloss function)
(3) 绝对损失函数(absoluteloss function)
L(Y,f(X))=|Y−f(X)|
(4) 对数损失函数(logarithmicloss function) 或对数似然损失函数(log-likelihood loss function)
L(Y,P(Y|X))=−logP(Y|X)
损失函数越小,代表这个模型得出的预测值与真实值相差越小,模型就越好. -
算法:
将所有的预测值向其对应的真实值靠拢的方法,当通过策略从假设空间中选出最优模型时,最后就需要用算法求解最优模型。如梯度下降法。
统计学习基于给定的训练数据集,根据学习策略,从假设空间中选出最优模型,最后考虑用什么样的算法求解最优模型。统计学习方法之间的不同,主要来自其模型,策略,算法的不同,一旦这三要素确定,统计学习方法也基本确定。因此,方法=模型+策略+算法
统计学习要解决的问题
-
分类:从单变量到有限离散单变量。如输入图像,得到类别分类。
这里的输入可以是有限的,也可以是无限的,但是最后得出的分类类别一定是有限的。比如输入任意多张图片,通过统计学习方法,将图片分为猫图,狗图两种类别。 -
标注:从序列到序列。
如输入一句话,得到相应的 BMES 标注
BMES 标注是指用BMES这个四个标签去标注句子中的每一个字(B是词首,M是词中,E是词尾,S是单字词)。用下面这段话举例说明:
小明硕士毕业于中国科学院计算所
采用BMES标签来标注的话: -
回归::从单变量到连续单变量,也叫做函数拟合。
回归后得到的模型既可以用来补足离散点组成曲线,也能用于预测离散区间外的值。比如根据给出的零散的(a,b)数对,通过最小二乘法拟合出一条直线,得到这条直线后,输入有效的a值,就能预测出b值,如下图所示:
如输入体重、性别、年龄等数据,得到这个人的身高;或输入一个时间点,得到这个时间点的太阳角度。