统计学习方法概论
【1.1】
Herbert A. Simon 对“学习”的定义:系统通过执行某个过程改进它的性能。
统计学习:假设同类数据具有一定的统计规律性,从数据出发,提取数据的特征,抽象或构建数据的概率
统计模型,发现数据中的知识,实现对数据的预测和分析。(前提、对象、目的)
【1. 2】
统计学习包括监督学习、非监督学习、半监督学习及强化学习,其中监督学习是统计学习中内容最丰富,
应用最广泛的部分。(方法)
监督学习:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的; 假设要学习的模型属于某个函数的集合,称为假设空间; 应用某个评价准则,从假设空间中选取一个最优的模型,使其对已知训练数据与未知测试数据在给定评价准则下有最优的预测;(策略) 最优模型的选取由算法实现。
监督学习的三类问题:
1. 分类问题:输出变量为有限个离散变量的预测问题。
2.标注问题:输入变量与输出变量均为变量序列的预测问题。
3.回归问题:输入变量与输出变量均为连续变量的预测问题。
【1.3】
统计学习三要素: 方法 = 模型 + 策略 + 算法
1.模型是决策函数????=????(????或者条件概率分布????????????
模型可分为生成模型与判别模型,对应的统计学习方法成为生成方法与判别方法。
2.策略——模型的评估与选择
3.算法:统计学习问题最终都归结为给定评价准则下的优化问题,统计学习的算法 即 求解优化问题的算法。