统计学习方法笔记

文章目录

统计学习方法笔记

CHAP 1 : 统计学习方法概论

1.1 统计学习简述
1.2 监督学习
1.3 统计学习三要素
1.4 模型的评估与选择
1.5 泛化能力
1.6 生成模型和判别模型

CHAP 1 : 统计学习方法概论

1.1 统计学习简述

方法分类：监督学习，非监督学习，半监督学习，强化学习，本书主要讨论监督学习

统计学习方法三要素：模型（假设空间），策略（评价准则），算法（模型学习算法）

主要步骤（基于三要素）：获取到数据->确定假设空间->确定模型选择准则->实现最优模型算法->利用模型进行分析与预测

1.2 监督学习

定义：学习一个模型，对于任意一个输入，都有一个好的输出作为预测

掌握简单术语：输入空间（特征空间）输出空间，样本（输入输出对），假设空间( P(Y|X) 或 Y=f(x) )

联合概率分布（输入输出随机变量X,Y遵循联合概率分布P(X,Y)

问题的形式化：由N个样本点，学习系统训练出模型后作为预测系统，预测系统对于给定的测试样本集中输入的X(N+1),由模型给出Y(N+1):
$Y_{N+1}=argmax_{Y_{N+1}}P(Y_{N+1}|X_{N+1})$
或
$Y_{N+1}=f(X_{N+1})$

1.3 统计学习三要素

模型对应的是假设空间，参数空间；算法归结到最后就是一个最优化问题，这个最优化问题的目标函数就是策略中的评价准则，引入损失函数和风险函数的概念：

损失函数：预测值与真实值之间的度量预测错误的程度，包括：0-1损失函数，平方损失函数，绝对损失函数，对数损失函数；损失值越小，模型越好。，记作
$L(f(X),Y)$
风险函数：由于损失函数的输入输出均为符合联合分布的随机变量，因此将损失函数的期望定义为风险函数,记作
$R_{exp}(f)=\int_{X*Y}{L(f(x),y)*P(x,y)} dxdy$
但由于联合分布未知，因此由大数定律以以下的经验风险代替风险函数,N为训练集中样本数
$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(f(x_i),y_i)$
在训练数据，假设空间都确定后，算法最优化问题的的目标函数有以下两种选择

经验风险最小化 (ERM)
$min_{f} \frac{1}{N}\sum_{i=1}^{N}L(f(x_i),y_i)$
结构风险最小化（SRM)，添加正则化项，防止过拟合的出现
$min_{f} \frac{1}{N}\sum_{i=1}^{N}L(f(x_i),y_i)+\lambda J(f)$
J(f)为模型的复杂度，模型越复杂，J(f)越大。

1.4 模型的评估与选择

了解概念：测试误差，训练误差，过拟合

模型选择的经典方法：正则化，交叉验证（数据充足时，将数据划分为训练集，验证集，测试集，在学习不同复杂度的模型中，选择验证集上误差最小的；数据不充足时，简单交叉验证，S折交叉验证，留一交叉验证（N折交叉验证）

1.5 泛化能力

泛化误差：就是期望风险
$R_{exp}(f)=\int_{X*Y}{L(f(x),y)*P(x,y)} dxdy$
接下来研究泛化误差的上界，它通常具有性质：样本容量增加时，泛化上界趋于0；假设空间容量增大，泛化上界增加，接下来引入能够说明该问题的泛化误差上界的定理

对于二分类问题，当假设空间是有限个函数的集合F={f1,f2…fd}时，对任意一个属于假设空间的函数f，至少以1-σ的概率使得以下不等式成立
$R(f)\leq R^{'}(f)+\varepsilon (d,N,\sigma)$
其中
$R^{'}(f)=\frac{1}{N}\sum_{i=1}^{N}L(f(x_i),y_i)$

$R(f)=\int_{X*Y}{L(f(x),y)*P(x,y)} dxdy=E(L(f(X),Y))$

$\varepsilon(d,N,\sigma)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{\sigma})}$

证明过程较多，手写如下图：
先证明了markov不等式，Hoeffdinh引理->Hoeffding不等式，最后证明泛化误差上限定理。
证明思路来源：
Hoeffding inequality
Markov inequality
Hoeffding lemma
统计学习方法笔记

1.6 生成模型和判别模型

生成模型：数据学习+联合概率分布得到的模型P(Y|X)

判别模型：由数据直接学得P(Y|X)或Y=f(X)

统计学习方法笔记

统计学习方法笔记

文章目录

CHAP 1 : 统计学习方法概论

1.1 统计学习简述

1.2 监督学习

1.3 统计学习三要素

1.4 模型的评估与选择

1.5 泛化能力

1.6 生成模型和判别模型

相关推荐