统计学习方法笔记
统计学习方法笔记
CHAP 1 : 统计学习方法概论
1.1 统计学习简述
方法分类:监督学习,非监督学习,半监督学习,强化学习,本书主要讨论监督学习
统计学习方法三要素:模型(假设空间),策略(评价准则),算法(模型学习算法)
主要步骤(基于三要素):获取到数据->确定假设空间->确定模型选择准则->实现最优模型算法->利用模型进行分析与预测
1.2 监督学习
定义:学习一个模型,对于任意一个输入,都有一个好的输出作为预测
掌握简单术语:输入空间(特征空间)输出空间,样本(输入输出对),假设空间( P(Y|X) 或 Y=f(x) )
联合概率分布(输入输出随机变量X,Y遵循联合概率分布P(X,Y)
问题的形式化:由N个样本点,学习系统训练出模型后作为预测系统,预测系统对于给定的测试样本集中输入的X(N+1),由模型给出Y(N+1):
或
1.3 统计学习三要素
模型对应的是假设空间,参数空间;算法归结到最后就是一个最优化问题,这个最优化问题的目标函数就是策略中的评价准则,引入损失函数和风险函数的概念:
损失函数:预测值与真实值之间的度量预测错误的程度,包括:0-1损失函数,平方损失函数,绝对损失函数,对数损失函数;损失值越小,模型越好。,记作
风险函数:由于损失函数的输入输出均为符合联合分布的随机变量,因此将损失函数的期望定义为风险函数,记作
但由于联合分布未知,因此由大数定律以以下的经验风险代替风险函数,N为训练集中样本数
在训练数据,假设空间都确定后,算法最优化问题的的目标函数有以下两种选择
经验风险最小化 (ERM)
结构风险最小化(SRM),添加正则化项,防止过拟合的出现
J(f)为模型的复杂度,模型越复杂,J(f)越大。
1.4 模型的评估与选择
了解概念:测试误差,训练误差,过拟合
模型选择的经典方法:正则化,交叉验证(数据充足时,将数据划分为训练集,验证集,测试集,在学习不同复杂度的模型中,选择验证集上误差最小的;数据不充足时,简单交叉验证,S折交叉验证,留一交叉验证(N折交叉验证)
1.5 泛化能力
泛化误差:就是期望风险
接下来研究泛化误差的上界,它通常具有性质:样本容量增加时,泛化上界趋于0;假设空间容量增大,泛化上界增加,接下来引入能够说明该问题的泛化误差上界的定理
对于二分类问题,当假设空间是有限个函数的集合F={f1,f2…fd}时,对任意一个属于假设空间的函数f,至少以1-σ的概率使得以下不等式成立
其中
证明过程较多,手写如下图:
先证明了markov不等式,Hoeffdinh引理->Hoeffding不等式,最后证明泛化误差上限定理。
证明思路来源:
Hoeffding inequality
Markov inequality
Hoeffding lemma
1.6 生成模型和判别模型
生成模型:数据学习+联合概率分布得到的模型P(Y|X)
判别模型:由数据直接学得P(Y|X)或Y=f(X)