[阅读笔记]《统计学习方法》李航著:Chp1 统计学习方法概论
机器学习两本中文必备书籍之一,强推阅读。本文仅记录笔者个人的一些阅读笔记及理解。
阅读时,建议可以先浏览章节最后的本章概要,对本章节的核心内容及讲述的逻辑关系有个大致的了解,再进入详读。
本章概要部分节选
- 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。
- 统计学习方法三要素——模型、策略、算法
- 本书主要讨论监督学习,监督学习可以概括为:从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。(理解数据、模型、评价准则三者在该学习设定下的关系即可)
- 统计学习中,进行模型选择或者说提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差,就可能产生过拟合现象。模型选择的方法有正则化与交叉验证。学习方法泛化能力的分析是统计学习理论研究的重要课题。
- 分类问题、标注问题和回归问题都是监督学习的重要问题。本书分别介绍了多种主流的分类、标注以及回归方法。这些方法又可从另一角度归类为生成方法与判别方法。
1.1 统计学习
- 统计学习的对象是数据
- 统计学习的目的是对数据进行预测与分析
- 统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型、策略、算法
1.2 监督学习
- 预测任务可分为三类:
– 回归问题:输入变量及输出变量均为连续变量的预测问题
– 分类问题:输出变量为有限个离散变量的预测问题
– 标注问题:输入变量与输出变量均为变量序列的预测问题
1.3 统计学习的三要素
- 方法 = 模型+策略+算法
- 损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏
- 常用的损失函数如下
- 两个基本策略
– 经验风险最小化:如极大似然估计
– 结构风险最小化:在经验风险的基础上加上表示模型复杂度的惩罚项。如贝叶斯估计中的最大后验概率估计
1.4 模型评估与模型选择
- 理解训练误差、测试误差、过拟合、模型选择的逻辑关系
1.5 正则化与交叉验证
- 正则化与交叉验证是两个常用的模型选择的方法
- 交叉验证可分为:简单交叉验证、S着交叉验证及留一交叉验证。实验时常用十折交叉验证。
- 奥科姆剃刀原理:能够很好的解释已知数据并且十分简单才是最好的模型。正则化正符合该原则。
1.6 泛化能力
- 泛化误差反映了学习方法的泛化能力
1.7 生成模型与判别模型
- 生成模型:
- 判别模型:由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型
- 两种方法的特点
1.8 分类问题
- TP—将正类预测为正类
- FN—将正类预测为负类
- FP—将负类预测为正类
- TN—将负类预测为负类
- 精确率
- 召回率
-
值:精确率和召回率的调和均值.
1.9 标注问题
- 分类问题的推广,常见应用:自然语言处理的词性标注
1.10 回归问题
- 按输入变量的个数可分为一元回归和多元回归;按输入变量和输出变量的关系可分为线性回归和非线性回归
- 最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法求解