统计学习简要介绍

统计学习简要介绍

统计学习介绍目录
1.统计学习基本概念
2.统计学习模型三要素
3.统计学习要解决的问题

统计学习基本概念
什么是统计学习?统计学习从数据出发,通过对已知数据的分析来实现对未知数据的预测。而对数据的预测与分析是通过构建概率统计模型来实现的,统计学习的目标就是考虑学习什么样的模型和如何学出这个模型,以使模型能对数据进行准确的预测与分析。

统计学习三要素

  • 模型:是在参数空间中的参数影响下,从一个空间到另一个空间的映射 f(x),即经过何种变换使一个空间到另一个空间
    输入空间、输出空间:
    直白点,若Y=f(x),x的所有可能取值的集合就是输入空间,Y的所有可能取值的集合就是输出空间
    假设空间(也称函数空间):
    函数的所有可能表示,即所有能从输入空间到输出空间的变换,如f(x) = ax+b,假设空间中确定的函数 f 的输出值被称为预测值。
    参数空间:
    是一个 n 维的欧式空间,若映射形如f(x) = ax+b,则a,b数对的所有集合称为参数空间。显而易见,如果确定了a和b,那f(x)便能求出。所以函数空间一般由参数空间来确定,两者息息相关。如上面的参数空间就是二维的欧式空间。

  • 策略
    度量预测值和真实值差异的准则或方法,一般称为度量预测值和真实值差异的准则或方法,一般称为loss 函数
    别名:惩罚项
    统计学习中常用的损失函数有以下几种:
    (1) 0-1损失函数(0-1 lossfunction):
    (2) 平方损失函数(quadraticloss function)
    (3) 绝对损失函数(absoluteloss function)
    L(Y,f(X))=|Y−f(X)|
    (4) 对数损失函数(logarithmicloss function) 或对数似然损失函数(log-likelihood loss function)
    L(Y,P(Y|X))=−logP(Y|X)
    损失函数越小,代表这个模型得出的预测值与真实值相差越小,模型就越好.

  • 算法
    将所有的预测值向其对应的真实值靠拢的方法,当通过策略从假设空间中选出最优模型时,最后就需要用算法求解最优模型。如梯度下降法。
    统计学习基于给定的训练数据集,根据学习策略,从假设空间中选出最优模型,最后考虑用什么样的算法求解最优模型。统计学习方法之间的不同,主要来自其模型,策略,算法的不同,一旦这三要素确定,统计学习方法也基本确定。因此,方法=模型+策略+算法
    统计学习简要介绍

统计学习要解决的问题

  • 分类:从单变量到有限离散单变量。如输入图像,得到类别分类。
    这里的输入可以是有限的,也可以是无限的,但是最后得出的分类类别一定是有限的。比如输入任意多张图片,通过统计学习方法,将图片分为猫图,狗图两种类别。

  • 标注:从序列到序列。
    如输入一句话,得到相应的 BMES 标注
    BMES 标注是指用BMES这个四个标签去标注句子中的每一个字(B是词首,M是词中,E是词尾,S是单字词)。用下面这段话举例说明:
    小明硕士毕业于中国科学院计算所
    采用BMES标签来标注的话:
    统计学习简要介绍

  • 回归:从单变量到连续单变量,也叫做函数拟合
    回归后得到的模型既可以用来补足离散点组成曲线,也能用于预测离散区间外的值。比如根据给出的零散的(a,b)数对,通过最小二乘法拟合出一条直线,得到这条直线后,输入有效的a值,就能预测出b值,如下图所示:
    统计学习简要介绍
    如输入体重、性别、年龄等数据,得到这个人的身高;或输入一个时间点,得到这个时间点的太阳角度。