【李宏毅ML笔记】分类笔记1
分类问题的引出
回归和分类的区别:回归问题,输出是一个数值,而分类问题输出的是一个类别。
这次的PPT还是用宝可梦为例子来讲解分类问题,针对于不同种类的宝可梦,需要预测宝可梦的属性,即我们寻求一个函数F,输入是某只宝可梦,输出宝可梦的类别。即实现如下映射关系。
F(某只宝可梦)=某类属性
可以把[某只宝可梦]数值化成一个向量,其组成可以为(生命值CP,攻击力AC,防御力DC,….)
而要实现分类,需要如下PPt所示的三步(在线性回归中也是这类似的三步):
这里的Loss Function和线性回归定义的也不一样,其中的
当
当
则L(f)统计的是预测错误的次数。
Note:
线性回归中求解best function用的方法是梯度下降,而梯度下降不适用于求解分类问题。
Generative Model
在分类中求best fuction的方法之一。
PPT中讲解了Generative Model的方法,其主要原理利用了贝叶斯公式和高斯分布函数。
贝叶斯公式
下图公式利用贝叶斯公式,求出拿出的蓝色球来自于盒子1的可能性
理解贝叶斯公式,需要先懂全概率公式和条件概率。
条件概率
在事件B发生的情况下A发生的概率
理解:在事件B发生的前提下,则样本空间为事件B的样本空间。(在不求条件概率时,样本空间通常为全体样本空间,而全体样本空间概率为1)
全概率公式
把全体样本空间划分为完备时间组,而事件A发生的概率为
理解:公式的推导很简单,
接下来利用条件概率引出的乘法公式求出即可。
可以想成,要使A事件发生,可以有不同的路径,如有n种,则求每种路径下A发生的概率和就是A发生的概率。
贝叶斯公式
根据上述全概率公式的理解,贝叶斯公式则是已知事件A发生,要求走的是路径是
的可能性是多少。
在将条件概率公式和全概率公式代入即可。
全概率公式是执因索果,而贝叶斯公式是执果索因。
对公式的讲解部分结束,还是继续看PPT,李宏毅老师继续引申到了分类问题中,而且是二值分类问题,只要我们求出图片中的概率我们就算完成了分类,只要此概率求出得出的值大于0.5,即我们可判断此x属于类别1.
而要求出,需要求得公式中的其他概率,先给结果
prio—-求P(C1),P(C2)
求这个的概率很简单,根据train data中类别1的数量除以总体数量即可。
probability from class—-求P(x|c1),P(x|c2)
这个求得是当前是类别的情况下(水系条件下)是x(海尼龟)的可能性,而海尼龟在当前traindata中并未出现,则需根据当前得train data中得出高斯分布函数,然后输入代表海尼龟的向量vector,输出得是水系条件下是海尼龟的可能性。而如何得出高斯分布函数呢,高斯分布函数是由mean() 和variance()决定的。
而如何确定,针对trainset,我们要找到的高斯函数是最好包含trainset中的数据,指的是把点带入高斯分布函数使得其概率乘积最大的,可以对求极值得到其最大值时的值。