《统计学习方法(第二版)》李航 读书笔记(2)统计学习方法分类和介绍(监督、非监督、强化学习)
《统计学习方法(第二版)》李航 读书笔记(2)
统计学习方法分类
监督学习:
从标注数据中学习预测模型的机器学习问题,本质是学习输入到输出的映射的统计规律
将输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space)
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示
所有特征向量存在的空间称为特征空间(feature space)
有时,输入空间与特征空间是一样的,不加以区分;但有时是不同的,就将实例映射到特征空间,模型实际上都是定义在特征空间的
• x(i)与xi 不同,前者表示x的第i个特征,后者表示多个输入变量中的第i个
输入变量与输出变量均为连续变量的预测问题称为回归问题;
输出变量为有限个离散变量的预测问题称为分类问题;
输入变量与输出变量均为变量序列的预测问题称为标注问题;
监督学习目的是学习一个由输入到输出的映射,称为模型
模式的集合就是假设空间(hypothesis space)
概率模型:条件概率分布P(Y|X)或 决策函数:Y=f(X)
在监督学习中,假设训练数据与测试数据是依连个概率分布P(X,Y)独立同分布产生的。
无监督学习
从无标注数据中学习预测模型的机器学习问题,本质是学习数据中的统计规律或者潜在结构
每一个输出是对输入的分析结果,有输入的类别、转换或概率表示。模型可以实现对数据的聚类、降维或概率估计。
X是输入空间,Z是隐式结构空间,要学习的模型可以表示为z=g(x),条件概率分布P(z|x)。包含所有可能的模型的集合称为假设空间。无监督学习旨在从假设空间中选出在给定评价标准下的最优模型。
强化学习
Reinforcement learning是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔科夫决策过程(Markov decision process),智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
每一个时间段t,智能系统从环境中观测到一个状态state St与一个奖励reward rt ,采取一个动作at。环境根据智能系统选择的动作,决定下一步t+1的状态St+1和奖励rt+1 。
智能系统的目标不是短期奖励的最大化,而是长期累积的奖励的最大化。系统不断地试错(trial and error),以达到学习最优策略的目的。
马尔科夫决策过程具有马尔科夫性,下一个状态只依赖前一个状态与动作,有状态转移概率函数表示,下一个奖励由奖励函数r(s,a)表示。
策略π就是给定状态下动作的函数或者条件概率分布。给定策略之后,智能系统与环境互动的行为就已经确定了(确定性的或者随机性的)
价值函数或状态价值函数是策略从某一个状态s开始的长期累积奖励的数学期望。
动作价值函数是策略从某一个状态s和动作a开始长期累积奖励的数学期望
无模型(model-free)
• 基于策略(policy-based):求解最优策略π*
• 基于价值(value-based):求解最优价值函数
有模型(model-based)
• 通过学习马尔可夫决策过程的模型,包括转移概率函数和奖励函数
• 通过模型对环境的反馈进行预测
• 求解价值函数最大的策略π*
半监督学习
• 少量标注数据,大量未标注数据
• 利用未标注数据的信息,辅助标注数据,进行监督学习
• 较低成本
主动学习
• 机器主动给出实例,教师进行标注
• 利用标注数据学习预测模型
还有很多种分类方法
概率模型:
决策树,朴素贝叶斯,隐马尔可夫模型,条件随机场,概率潜在语义分析,潜在狄利克雷分配,高斯混合模型
非概率模型:
感知机,支持向量机,k近邻,AdaBoost,k均值,潜在语义分析,神经网络
逻辑斯蒂回归两个都可以算
也可以分为线性模型(感知机,线性支持向量机,k近邻,k均值,潜在语义分析),非线性模型(核函数支持向量机,AdaBoost,神经网络);参数化模型和非参数化模型;在线学习与批量学习。
按照技巧分类
1.贝叶斯学习:在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原来进行模型的估计,以及对数据的预测。
后验概率
其中是先验概率,是似然函数
贝叶斯估计与极大似然估计不同,但是假设先验分布是均匀分布,去后验概率最大,就能从贝叶斯估计得到极大似然估计
2.核方法:
kernel method是使用核函数表示和学习非线性模型的一种机器学习方法。包括支持向量机,核PCA,核k均值
• 使用核函数表示和学习非线性模型,将线性模型学习方法扩展到非线性模型的学习
• 不显式地定义输入空间到特征空间的映射,而是直接定义核函数,即映射之后在特征空间的内积
• 假设x1,x2是输入空间的任意两个实例,内积为<x1, x2>,输入空间到特征空间的映射为φ,
核方法在输入空间中定义核函数 K(x1, x2),使其满足 K(x1, x2) = < φ(x1), φ(x2)>
三要素
方法=模型+策略+算法
模型
策略
损失函数loss function用来度量预测错误的程度
损失函数值越小,模型就越好。损失函数的期望是
这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数(risk function)或者期望损失(expected loss)
由P(x,y)可以直接求出P(x|y),但不知道,所以需要学习
给定一个训练数据集
模型f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失记作Remp
期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。
但是数据量有限,用经验风险估计期望风险时需要对经验风险进行矫正,有两个方法
经验风险最小化(empirical risk minimization ERM)、结构风险最小化(structural risk minimization SRM)
ERM:
极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数函数时,经验风险最小化就等价于极大似然估计
样本容量比较小的时候,ERM会产生过拟合,为防止过拟合,可以使用SRM。结构风险最小化等价于正则化(regularization),结构风险在经验风险上加上表示模型复杂度的正则化项(regularization)或罚项(penalty term)
J(f)是模型的复杂度。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation MAP)就是结构风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计
结构风险最小化的策略认为结构风险最小的模型就是最优的模型,所以求最优模型,就是求解最优化问题: