统计学习方法笔记

统计学习方法笔记

CHAP 1 : 统计学习方法概论

1.1 统计学习简述

方法分类:监督学习,非监督学习,半监督学习,强化学习,本书主要讨论监督学习

统计学习方法三要素:模型(假设空间),策略(评价准则),算法(模型学习算法)

主要步骤(基于三要素):获取到数据->确定假设空间->确定模型选择准则->实现最优模型算法->利用模型进行分析与预测

1.2 监督学习

定义:学习一个模型,对于任意一个输入,都有一个好的输出作为预测

掌握简单术语:输入空间(特征空间)输出空间,样本(输入输出对),假设空间( P(Y|X) 或 Y=f(x) )

​ 联合概率分布(输入输出随机变量X,Y遵循联合概率分布P(X,Y)

问题的形式化:由N个样本点,学习系统训练出模型后作为预测系统,预测系统对于给定的测试样本集中输入的X(N+1),由模型给出Y(N+1):
YN+1=argmaxYN+1P(YN+1XN+1) Y_{N+1}=argmax_{Y_{N+1}}P(Y_{N+1}|X_{N+1})

YN+1=f(XN+1) Y_{N+1}=f(X_{N+1})

1.3 统计学习三要素

模型对应的是假设空间,参数空间;算法归结到最后就是一个最优化问题,这个最优化问题的目标函数就是策略中的评价准则,引入损失函数和风险函数的概念:

损失函数:预测值与真实值之间的度量预测错误的程度,包括:0-1损失函数,平方损失函数,绝对损失函数,对数损失函数;损失值越小,模型越好。,记作
L(f(X),Y) L(f(X),Y)
风险函数:由于损失函数的输入输出均为符合联合分布的随机变量,因此将损失函数的期望定义为风险函数,记作
Rexp(f)=XYL(f(x),y)P(x,y)dxdy R_{exp}(f)=\int_{X*Y}{L(f(x),y)*P(x,y)} dxdy
但由于联合分布未知,因此由大数定律以以下的经验风险代替风险函数,N为训练集中样本数
Remp(f)=1Ni=1NL(f(xi),yi) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(f(x_i),y_i)
在训练数据,假设空间都确定后,算法最优化问题的的目标函数有以下两种选择

经验风险最小化 (ERM)
minf1Ni=1NL(f(xi),yi) min_{f} \frac{1}{N}\sum_{i=1}^{N}L(f(x_i),y_i)
结构风险最小化(SRM),添加正则化项,防止过拟合的出现
minf1Ni=1NL(f(xi),yi)+λJ(f) min_{f} \frac{1}{N}\sum_{i=1}^{N}L(f(x_i),y_i)+\lambda J(f)
J(f)为模型的复杂度,模型越复杂,J(f)越大。

1.4 模型的评估与选择

了解概念:测试误差,训练误差,过拟合

模型选择的经典方法:正则化,交叉验证(数据充足时,将数据划分为训练集,验证集,测试集,在学习不同复杂度的模型中,选择验证集上误差最小的;数据不充足时,简单交叉验证,S折交叉验证,留一交叉验证(N折交叉验证)

1.5 泛化能力

泛化误差:就是期望风险
Rexp(f)=XYL(f(x),y)P(x,y)dxdy R_{exp}(f)=\int_{X*Y}{L(f(x),y)*P(x,y)} dxdy
接下来研究泛化误差的上界,它通常具有性质:样本容量增加时,泛化上界趋于0;假设空间容量增大,泛化上界增加,接下来引入能够说明该问题的泛化误差上界的定理

对于二分类问题,当假设空间是有限个函数的集合F={f1,f2…fd}时,对任意一个属于假设空间的函数f,至少以1-σ的概率使得以下不等式成立
R(f)R(f)+ε(d,N,σ) R(f)\leq R^{'}(f)+\varepsilon (d,N,\sigma)
其中
R(f)=1Ni=1NL(f(xi),yi) R^{'}(f)=\frac{1}{N}\sum_{i=1}^{N}L(f(x_i),y_i)

R(f)=XYL(f(x),y)P(x,y)dxdy=E(L(f(X),Y)) R(f)=\int_{X*Y}{L(f(x),y)*P(x,y)} dxdy=E(L(f(X),Y))

ε(d,N,σ)=12N(logd+log1σ) \varepsilon(d,N,\sigma)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{\sigma})}

证明过程较多,手写如下图:
先证明了markov不等式,Hoeffdinh引理->Hoeffding不等式,最后证明泛化误差上限定理。
证明思路来源:
Hoeffding inequality
Markov inequality
Hoeffding lemma
统计学习方法笔记
统计学习方法笔记
统计学习方法笔记

1.6 生成模型和判别模型

生成模型:数据学习+联合概率分布得到的模型P(Y|X)

判别模型:由数据直接学得P(Y|X)或Y=f(X)