统计学习及监督学习概论
一、统计学习
1.统计学习的对象:数据
关于数据的基本假设:同类数据具有一定的统计规律性
可用概率统计方法处理,以 随机变量 描述 数据中的特征 以 概率分布 描述数据的统计规律
2.统计学习的方法
基于 数据 构建 概率统计模型 从而对数据进行预测和分析
分类:监督学习、无监督学习、强化学习等
有时还有半监督学习、主动学习
监督学习 主要用于 分类、标注、回归问题
三要素:模型、策略、算法
3.统计学习的分类
(1)监督学习 supervised learning
从 标记数据 中学习预测模型的机器学习问题
本质:学习输入到输出的映射的统计规律
输入空间 和 特征空间 有时为同一空间 有时不,不时,就通过 映射 产生联系
特征空间的每一维对应一个特征.
人们根据输入输出变量的不同类型,对预测任务基于不同的名称
回归问题: 输入变量X 与 输出变量Y 均为 连续变量 的预测问题
分类问题: 输出变量 为有限个离散变量的预测问题
标注问题: 输入变量与输出变量均为 变量序列 的预测问题
联合概率分布:
监督学习假设输入与输出的随机变量X和Y 遵循联合概率分布P(X,Y)
P(X,Y)表示分布函数,在 学习过程 中 假定 这一联合分布 存在 ,但对于 学习系统 来说,联合概率分布的具体定义是未知的。
训练数据和测试数据被看作是 依联合概率分布P(X,Y) 独立同分布 产生的
监督学习关于数据的基本假设: X和Y具有联合概率分布
假设空间:
监督学习的目的:学习一个由输入到输出的映射
该映射由模型来表示,学习的目的在于找到最好的这样的模型
模型属于由输入空间到输出空间的映射的集合——这个集合即假设空间
假设空间的确定意味着 学习范围 的确定
监督学习的模型可以是 概率模型 或 非概率模型
由条件概率分布P(Y|X) 或 决策函数Y=f(X) 表示,随具体学习方法而定
问题的形式化:
监督学习 利用 训练数据集 学习一个模型,再用模型对 测试样本集 进行预测,即监督学习分为 学习和预测 两个过程
(2)无监督学习 unsupervised learning
是从 无标注数据 中学习预测模型的机器学习问题
**无标注数据:**自然得到的数据