统计学习简要介绍

统计学习介绍目录
1.统计学习基本概念
2.统计学习模型三要素
3.统计学习要解决的问题

统计学习基本概念
什么是统计学习？统计学习从数据出发，通过对已知数据的分析来实现对未知数据的预测。而对数据的预测与分析是通过构建概率统计模型来实现的，统计学习的目标就是考虑学习什么样的模型和如何学出这个模型，以使模型能对数据进行准确的预测与分析。

统计学习三要素

模型：是在参数空间中的参数影响下，从一个空间到另一个空间的映射 f(x)，即经过何种变换使一个空间到另一个空间
输入空间、输出空间:
直白点，若Y=f（x）,x的所有可能取值的集合就是输入空间，Y的所有可能取值的集合就是输出空间
假设空间（也称函数空间）:
函数的所有可能表示，即所有能从输入空间到输出空间的变换，如f(x) = ax+b，假设空间中确定的函数 f 的输出值被称为预测值。
参数空间:
是一个 n 维的欧式空间，若映射形如f(x) = ax+b，则a,b数对的所有集合称为参数空间。显而易见，如果确定了a和b，那f(x)便能求出。所以函数空间一般由参数空间来确定，两者息息相关。如上面的参数空间就是二维的欧式空间。
策略：
度量预测值和真实值差异的准则或方法，一般称为度量预测值和真实值差异的准则或方法，一般称为loss 函数
~~别名：惩罚项~~
统计学习中常用的损失函数有以下几种：
(1) 0-1损失函数(0-1 lossfunction):
(2) 平方损失函数(quadraticloss function)
(3) 绝对损失函数(absoluteloss function)
L(Y,f(X))=|Y−f(X)|
(4) 对数损失函数(logarithmicloss function) 或对数似然损失函数(log-likelihood loss function)
L(Y,P(Y|X))=−logP(Y|X)
损失函数越小，代表这个模型得出的预测值与真实值相差越小，模型就越好.
算法：
将所有的预测值向其对应的真实值靠拢的方法，当通过策略从假设空间中选出最优模型时，最后就需要用算法求解最优模型。如梯度下降法。
统计学习基于给定的训练数据集，根据学习策略，从假设空间中选出最优模型，最后考虑用什么样的算法求解最优模型。统计学习方法之间的不同，主要来自其模型，策略，算法的不同，一旦这三要素确定，统计学习方法也基本确定。因此，方法=模型+策略+算法

统计学习要解决的问题

分类：从单变量到有限离散单变量。如输入图像，得到类别分类。
这里的输入可以是有限的，也可以是无限的，但是最后得出的分类类别一定是有限的。比如输入任意多张图片，通过统计学习方法，将图片分为猫图，狗图两种类别。
标注：从序列到序列。
如输入一句话，得到相应的 BMES 标注
BMES 标注是指用BMES这个四个标签去标注句子中的每一个字(B是词首，M是词中，E是词尾，S是单字词)。用下面这段话举例说明：
小明硕士毕业于中国科学院计算所
采用BMES标签来标注的话：
回归：：从单变量到连续单变量，也叫做函数拟合。
回归后得到的模型既可以用来补足离散点组成曲线，也能用于预测离散区间外的值。比如根据给出的零散的（a,b）数对，通过最小二乘法拟合出一条直线，得到这条直线后，输入有效的a值，就能预测出b值，如下图所示：

如输入体重、性别、年龄等数据，得到这个人的身高；或输入一个时间点，得到这个时间点的太阳角度。

统计学习简要介绍

统计学习简要介绍

相关推荐