台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)

按照惯例先放课程视频连接:https://www.bilibili.com/video/BV1JE411g7XF?p=10

内容提要

这节课主要讲的是分类算法。以多个特征作为输入数据,以分类结果作为输出。
首先,介绍了分类与回归算法的区别;
之后,以贝叶斯公式引出分类概率;(优秀的理解)
之后,以高斯分布为例,解释最大似然估计的二分类方法;
联合分布求分类。
数学推导,通俗易懂!

分类与回归

分类即为求取一个目标函数,使两类数据分布在函数两侧,即特征带入函数后,结果具有不能的正负结果!
为了进行分类,显然绿色是目标函数,但是在回归算法中,右下角的蓝色值距离目标函数太远,误差就打了,这样回归算法会调整函数使其照顾远处的点,从而导致得到的函数不能准确分类,所以分类时不适合使用回归算法。
台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)

正推分类算法

为了实现分类,即需要找到一个函数g(x),使类1结果大于0,类2结果小于0即可。
损失函数就是判断正确的个数和。
但是无法微分。

台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)

概率分类推导

条件概率的推导,很直观。类比分类问题,也是需要确定两个类别下取出目标数据的概率。

台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)

台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)

假设目标属于高斯分布

利用只有train data求取分布的主要参数,然后以求得的分布为依据,求未知test data属于该分布的概率即为属于该分类的概率。
台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)

那么问题就是如何确定这个分布,也就是这个分布的参数。确定参数使所有已知数据在这组参数构建的分布的概率最大。也就是最大似然估计。

台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)

多个分布分别求取

多个分类的情况呢,就分别求不同分类的数据的分布,这样来确定test data是来自于哪个分布。由于
P(C1x)+P(C2x)=1P(C_1|x)+P(C_2|x)=1所以,只需要求P(C1x)>0.5P(C_1|x)>0.5即为分类1,反之则为分类2。
但是李老师这么做了,效果并不好,2feature结果不好,7features结果也不好。都在50%左右,和猜的结果差不多。

台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)

联合求取相同分布

以下几位两个分布共用Σ\Sigma的情况。也就是求μ1,μ2,Σ\mu^1,\mu^2,\Sigma这三个参数共同确定的两个分布对应的训练集数据在其上的分布概率均最大的情况。分类1在分布1的概率与分类2在分布2的概率和。其中Σ\Sigma是共用的。
台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)
结果很有意思的是线性的,如下图,这个线性很有意思,模型看上去很复杂,结果竟然是线性的,这里匪夷所思,看完视频这个问题得到了解决。这里正确率有所提升,但是我觉得结果并不尽如人意。

台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)

小结

首先要确定概率模型,这里也强调了高斯不是确定的可以选择伯努利或者贝叶斯等多种分布模型。
建立模型后,使用最大似然估计其主要参数,从而得到分布模型。

台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)

优秀的数学推导

从视频的59分开始,有一段很优秀易懂的数学推导。看来台大的学生数学也比较差,这样的数学,李老师也给了warning of math。
一顿可以看懂的复杂推导之后呢,得到了P(C1x)=σ(wx+b)P(C_1|x)=\sigma(w·x+b)公式里的w和b是通过5个参数构成的,正常来说我们为了确定这个概率需要求这五个参数 ,但是机器学习嘛,我们可以通过大量训练数据,直接让机器找到数据的规律,直接确定w和b,这样就可以得到这个分布了。这里也可以很容易得看出,之前的分布为什么就是线性的了,应为与x有关的参数就是一次的,其他复杂项都是b。
台大李宏毅课程笔记4——Classification:Probabilistic Generative Model(分类:概率生成模型)