《统计学习方法》学习笔记(0)——概述

目前机器学习等热门的人工智能领域使用的算法大多是统计学的方法,李航老师的《统计学习方法》是一本很不错的入门统计学习方法的书,在读这本书的时候,顺便写下笔记,供自己以后参考。

在谈统计学习方法之前,我想起之前一个朋友问我:“现在人工智能领域的算法都是基于概率吗?”

我当时想差多就是这个意思吧,大多算法都是基于统计学的,但是后来发现“统计”不是“概率”

那统计和概率的区别是什么?

先上一张图(一图胜千言)
《统计学习方法》学习笔记(0)——概述

由此可见,“概率”是已知了模型,预测下一个新数据的结果。“统计”是已知数据,归纳出模型。

举个生动的例子:在生物课上,,有一道题是看动物的脚,猜该动物的名称,一考生实在是不会做,愤怒的把试卷撕掉就往外走,老师看见了,抓住他大声说道:“你哪个班的,这么嚣张”。学生把裤腿一提,说道:“你猜啊,你猜啊!”

统计就是给你黑盒子里面装着猫和狗,只让你看到他们的腿,需要收集所有动物的腿(也就是过去的数据),然后总结这些腿的特征(总结归纳)。当图片里的腿出现时,你可以根据之前的总结归纳来判断出这腿是不是猫的腿。

概率就是我们又拿来了一个新的动物的腿,通过观察一系列特征来判断是哪种动物。

再回到“现在人工智能领域的算法都是基于概率吗?”这个问题,其实也不然,在统计学习方法中,我们不仅有概率模型,还有非概率模型(如决策函数),这就涉及到统计学习方法的第一个要素——模型。(强行切入主题:))

统计学习方法三要素

统计学习的三要素分别是:模型 ,策略,方法。

模型:
模型即选择生成模型还是判别模型。这两种模型不同的地方是目标不同,生成模型是想找到源数据的联合概率分布,判别模型是要找到条件概率或决策函数

生成模型和判别模型的细节可以查看http://blog.****.net/qq_33414271/article/details/79092438

策略:
选择一个合适的损失函数或风险函数,也就是选择一个目标函数(优化的目标)

算法:
这里就是指优化算法,包括梯度下降法,牛顿法/拟牛顿法、拉格朗日方法等经典的优化算法(统计学习的问题有了具体的形式之后就变成了最优化问题)

由上面三要素就可以组成一个方法,也就是统计学习的方法。

下面有10种最常见的统计学习方法的概括总结
《统计学习方法》学习笔记(0)——概述

也可一比较上面的每个方法中使用的三要素来加深理解,像朴素贝叶斯是典型的生成模型,逻辑回归是典型的判别模型。

参考:
https://www.douban.com/group/topic/105567510/
https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/
http://blog.****.net/qq_33414271/article/details/79092438
《统计学习方法》李航 著