《统计学习方法》学习笔记一:基础定义

1.几种统计学习方法定义及理解

《统计学习方法》学习笔记一:基础定义

1)监督学习

本质:学习输入到输出的映射的统计规律
举例:输入变量与输出变量均为连续变量的预测问题为回归问题。
输出变量为有限个离散变量的预测问题为分类问题
输入输出变量均为变量序列的预测问题成为标注问题。
经典的例子是房价预测的问题:有很多房子的信息和房子的价格,然后训练出模型之后输入一个房子的信息,模型给出预测的房价

2)无监督学习

本质:学习数据中的统计规律或潜在结构
举例:主成分分析(PCA)、高斯混合模型、流形学习算法(Isomap)
我本科毕设“过曝光图像处理”中的第一步用的就是三分量广义高斯混合模型来对图像进行分割,对于图像上的各个像素点,没有标签去界定哪个是过曝光的哪个是欠曝光的,所以要对这些点进行聚类分析寻找他们之间的规律。

3)半监督学习

本质:利用大量未标注的信息,辅助标注数据,进行监督学习,降低学习成本
举例:标签数据的分布帮助我们定义了同类样本的边界,少量有标签样本又为类提供了标签信息。比如(不贴合实际)有两只狗,白的的狗基因是A,黑色的狗基因是a,现在又有了一大批狗,没有测他们的基因,但是通过某种方式知道黑色的狗的基因都相同,白色的狗的基因都相同,这样就相当于也给这些未标注的数据打上了标签,可以进行监督学习了。

4)强化学习

本质:学习最优的序贯决策
举例:强化学习也是使用的未标记的数据,例子是基于模型的动态规划方法的机器人找金币的例子。

5)主动学习

本质:找出对学习最有帮助的实例标注来学习,相对于监督学习大量的随机实例都需要标记,降低了标注成本
总结:
所谓“监督”:就是需要人的干预,需要人打的标注
所谓“主动”“被动”:主动就是学习的过程中模型自己可以找出最有帮助的实例,被动就是所有的数据无差别的进行训练。
所谓“强化”:就是类似于反馈机制,学习的结果也可以用来进行学习。
半监督学习和主动学习更接近监督学习。

2.几类名词和举例

1)模型过拟合

解释:当假设空间中有很多模型时,就要选择一个最接近“真”模型的模型,也就是所选 择的模型参数向量与真模型的参数要相近。
但如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,这种现象就叫过拟合。是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测得很好,对未知数据预测很差的现象。
举例:《统计学习方法》学习笔记一:基础定义

2)模型欠拟合

解释:是指模型未训练出数据集的特征,导致模型在训练集、测试集上的精度都很低。
举例:
《统计学习方法》学习笔记一:基础定义

3)正则化

解释:正则化是模型选择的一个典型方法,是为了减小误差使模型在面对新数据时可以有很好的表现。比如过拟合的情况下,可以使用正则化,降低模型的复杂度。
举例:网上的例子,记录一只蚊子的路径,让它再飞一遍,很有很大的误差,但是往蚊子身上挂一个吊坠,往往就能让它飞得范围小一点,从而减少误差,这个吊坠就是“正则化”

4)泛化能力

解释:学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
举例:对于给定的未知input从而给出合适的output,也可以说是一种举一反三的能力。