机器学习----统计学习方法-1

一、统计学习方法概论

       统计学习方法是基于数据构建统计从而进行预测和分析,统计学习方法分为监督学习、非监督学习、半监督学习和强化学习
统计学习方法的三要素:假设空间模型选择的准则模型学习的算法
机器学习----统计学习方法-1

1.1、基本概念

1.1.1、输入空间、特征空间和输出空间

       将输入和输出的所有可能的取值的集合分别成为输入空间(input space)和输出空间(output space)。
       每个具体的输入是一个实例,通常由特征向量表示,这时,所有特征向量存在的空间成为特征空间,特征空间的每一维对应一个特征。

1.1.2、联合概率分布

机器学习----统计学习方法-1

1.1.3、假设空间

机器学习----统计学习方法-1

1.2、问题的形式化

监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测(prediction),监督学习分为学习和预测两个过程,由学习系统预测系统完成。
机器学习----统计学习方法-1

1.3、统计学习三要素

机器学习----统计学习方法-1

1.3.1、常用的几种损失函数(loss function)

0-1损失函数
                                          机器学习----统计学习方法-1
平方损失函数

L(Y,f(X))=(Yf(X))2

绝对值损失函数
L(Y,f(X))=|Yf(X)|

对数损失函数
L(Y,f(X))=logP(Y|X)

损失函数越小,模型越好,由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是:

Rexp(f)=Ep[L(Y,f(X))]=x×yL(y,f(x))P(x,y)dxdy

1.3.2、经验风险最小化与结构风险最小化

机器学习----统计学习方法-1
在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是:

minfF1Ni=1NL(yi,f(xi))+λJ(f)

机器学习----统计学习方法-1
机器学习----统计学习方法-1

1.4、模型评估和选择

1.4.1、训练误差与测试误差

训练误差是模型关于训练数据集的平均损失:

Remp=1Ni=1NL(y,f^(xi))

测试误差是模型关于测试数据集的平均损失:
etest=1Ni=1NL(y,f^(xi))

1.4.2、过拟合和模型的选择

机器学习----统计学习方法-1

1.5、正则化和交叉验证

机器学习----统计学习方法-1
交叉验证
机器学习----统计学习方法-1

1.6、分类问题

机器学习----统计学习方法-1
F1值
机器学习----统计学习方法-1

二、感知机

类似于支持向量机,具体用法及介绍点击这里

2.1、定义

机器学习----统计学习方法-1

2.2、感知机模型

机器学习----统计学习方法-1

感知机的算法原理和SVM的原理一致,具体见SVM详解

2.3、算法的收敛性

机器学习----统计学习方法-1
最后,
机器学习----统计学习方法-1

三、K近邻法

3.1、解释

        K近邻是不具有显式的学习过程,当K=1的时候,成为最近邻算法。
        K最近邻(k-Nearest Neighbour,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
机器学习----统计学习方法-1

3.2、距离度量

        特征空间中两个实例点的距离是两个实例点相似程度的反映,k近邻模型的特征空间一般是n 维特征向量的R^2,使用 的距离是欧式距离,也可以使用其他的距离,如下:
机器学习----统计学习方法-1

3.3、k值的选择

机器学习----统计学习方法-1

3.4、K近邻搜索:kd树

K近邻法最简单的实现方法是线性扫描
机器学习----统计学习方法-1

3.5、搜索方法

机器学习----统计学习方法-1

四、朴素贝叶斯

4.1、原理

       朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。
机器学习----统计学习方法-1

4.2、极大似然估计

案例解决原理
机器学习----统计学习方法-1

4.3、计算 分类的步骤

机器学习----统计学习方法-1

4.4、贝叶斯估计(类似于拉普拉斯平滑)

机器学习----统计学习方法-1