统计学习及监督学习概论

一、统计学习

1.统计学习的对象:数据

关于数据的基本假设:同类数据具有一定的统计规律性
可用概率统计方法处理,以 随机变量 描述 数据中的特征 以 概率分布 描述数据的统计规律

2.统计学习的方法

基于 数据 构建 概率统计模型 从而对数据进行预测和分析

分类:监督学习、无监督学习、强化学习等

有时还有半监督学习、主动学习

监督学习 主要用于 分类、标注、回归问题

三要素:模型、策略、算法

统计学习及监督学习概论

3.统计学习的分类

(1)监督学习 supervised learning

标记数据 中学习预测模型的机器学习问题
本质:学习输入到输出的映射的统计规律
输入空间 和 特征空间 有时为同一空间 有时不,不时,就通过 映射 产生联系
特征空间的每一维对应一个特征.

人们根据输入输出变量的不同类型,对预测任务基于不同的名称

回归问题: 输入变量X 与 输出变量Y 均为 连续变量 的预测问题
分类问题: 输出变量 为有限个离散变量的预测问题
标注问题: 输入变量与输出变量均为 变量序列 的预测问题

联合概率分布:

监督学习假设输入与输出的随机变量X和Y 遵循联合概率分布P(X,Y)
P(X,Y)表示分布函数,在 学习过程假定 这一联合分布 存在 ,但对于 学习系统 来说,联合概率分布的具体定义是未知的。

训练数据和测试数据被看作是 依联合概率分布P(X,Y) 独立同分布 产生的

监督学习关于数据的基本假设: X和Y具有联合概率分布

假设空间:

监督学习的目的:学习一个由输入到输出的映射
该映射由模型来表示,学习的目的在于找到最好的这样的模型
模型属于由输入空间到输出空间的映射的集合——这个集合即假设空间
假设空间的确定意味着 学习范围 的确定

监督学习的模型可以是 概率模型非概率模型
由条件概率分布P(Y|X) 或 决策函数Y=f(X) 表示,随具体学习方法而定

问题的形式化:

监督学习 利用 训练数据集 学习一个模型,再用模型对 测试样本集 进行预测,即监督学习分为 学习和预测 两个过程

(2)无监督学习 unsupervised learning

是从 无标注数据 中学习预测模型的机器学习问题
**无标注数据:**自然得到的数据