第一章 统计学习方法概论
一、基本概念:
- 统计学习方法:是指计算机基于数据构建概率统计模型并利用模型对数据进行预测和分析的一门学科。
- 监督学习:是从标注数据中学习预测模型的机器学习方法,其本质是学习从输入到输出映射的统计规律。
- 无监督学习:是从无标注数据中学习预测模型的机器学习方法,其本质是学习自然数据的统计规律或者潜在结构。
- 强化学习:是指智能系统与环境的连续互动中许西最优化行为策略的机器学习模型。
- 特征空间:每个输入值所提取的特征向量构成的空间。
- 输入空间:输入所有可能取值的集合;
- 输出空间:输出所有可能取值的集合;
- 假设空间:所有可能模型(由输入到输出的映射)构成的空间;
- 训练误差:是模型关于训练数据集的平均损失。
- 测试误差:是模型关于测试数据集的平均损失。
- 过拟合:是指模型在训练数据集上预测能力很强,但在测试数据集上表现很差。
- 欠拟合:是指学习器对训练数据的一般性质尚未学好。
- 正则化:是结构风险最小化策略的实现,是在经验风险上加一个正则化项或者罚项。
- 交叉验证:是指将数据分成多个数据集,再将这些数据集分为训练数据集和测试数据集。
- 泛化能力:是指学习到的模型对未知数据的预测能力。
二、统计学习的分类:
- 监督学习
- 无监督学习
- 强化学习
- 半监督学习与主动学习
三、统计学习方法三要素:
方法=模型+策略+算法方法=模型+策略+算法
- 模型:
条件概率分布或者决策函数。
模型的假设空间包含所有可能的条件概率分布或者决策函数。 - 策略:
按照怎样的准则学习或者选择选择最优的模型。
引入损失函数,风险函数 - 算法:
是指学习模型的具体计算方法,用于从假设空间中选择最优模型,最后考虑用什么样的方法求解最优化问题。
四、模型评估与模型选择:
-
训练误差与测试误差: 统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好地预测能力。通常将学习方法对未知数据的预测能力成为泛化能力。
-
过拟合与模型选择: 当假设空间含有不同复杂度的模型时,就要面临模型选择的问题。我们希望选择或学习一个模型,如果在假设空间中存在“真”模型,那么所选择的模型应该逼近真模型。如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,这种现象称为过拟合。
-
精确度:
TP—将正类预测为正类数;
FN—将正类预测为负类数;
FP—将负类预测为正类数;
TN—将负类预测为负类数。
精确度定义为: -
召回率:
定义为: -
F1值:
是精确率和召回率的调和平均,即:
五、正则化与交叉验证:
- 定义:正则化项一般指模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
- 类别:主要包括简单交叉验证、S折交叉验证、留一交叉验证。
六、泛化能力:
学习方法的泛化能力指由该方法学习的模型对未知数据的预测能力。
七、监督学习应用:
- 分类问题:
从数据中学习一个分类模型或分类决策函数,称为分类器。
分类器对于新的输入进行输出的预测称为分类。
分类器性能指标:分类准确率 损失函数(0-1损失函数)
许多统计学习方法用于分类:K临近法,感知机,朴素贝叶斯法,决策树,决策列表等。 - 标注问题:
分类问题的一个推广,更复杂的结构预测问题的简单形式。
标注常用的统计学习方法:隐马尔可夫模型模型,条件随机场。 - 回归问题:
回归用于预测输入变量和输出变量的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
按照输入变量的个数分为一元回归和多元回归。
按照输入变量和输出变量的关系分为线性回归和非线性回归。
常用损失函数:平方损失函数 例子:最小二乘法.