统计学习及监督学习概论

一、统计学习

关于数据的基本假设：同类数据具有一定的统计规律性
可用概率统计方法处理，以 随机变量 描述数据中的特征以 概率分布 描述数据的统计规律

基于数据构建 概率统计模型 从而对数据进行预测和分析

有时还有半监督学习、主动学习

监督学习 主要用于分类、标注、回归问题

统计学习及监督学习概论

从 标记数据 中学习预测模型的机器学习问题
本质：学习输入到输出的映射的统计规律
输入空间和特征空间有时为同一空间有时不，不时，就通过映射产生联系
特征空间的每一维对应一个特征.

回归问题： 输入变量X 与输出变量Y 均为 连续变量 的预测问题
分类问题： 输出变量为有限个离散变量的预测问题
标注问题： 输入变量与输出变量均为 变量序列 的预测问题

监督学习假设输入与输出的随机变量X和Y 遵循联合概率分布P(X,Y)
P(X,Y)表示分布函数，在 学习过程 中假定这一联合分布存在，但对于 学习系统 来说，联合概率分布的具体定义是未知的。

训练数据和测试数据被看作是依联合概率分布P(X,Y) 独立同分布 产生的

监督学习关于数据的基本假设： X和Y具有联合概率分布

监督学习的目的：学习一个由输入到输出的映射
该映射由模型来表示，学习的目的在于找到最好的这样的模型
模型属于由输入空间到输出空间的映射的集合——这个集合即假设空间
假设空间的确定意味着 学习范围 的确定

监督学习的模型可以是 概率模型 或 非概率模型
由条件概率分布P(Y|X) 或决策函数Y=f(X) 表示，随具体学习方法而定

监督学习利用 训练数据集 学习一个模型，再用模型对 测试样本集 进行预测，即监督学习分为 学习和预测 两个过程

是从 无标注数据 中学习预测模型的机器学习问题
**无标注数据：**自然得到的数据