4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)

本篇博客将介绍监督学习中另一主要应用——分类算法,不同于回归算法回归算法,分类算法的输出是离散的分类变量,在实际有着广泛的应用。


目录


分类问题

分类问题中的线性回归

我们考虑一个包含两类的数据集,一类标记为-1,一类标记为1,如果对于左图中的数据利用回归模型可以很好的区分,但是数据分布不是聚集分布,如右图,有部分class1的数据远离拟合的直线,根据线性回归此时拟合的直线变为紫色直线,出现误判的情况。
4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)

分类问题算法

现在按照机器学习简介中机器学习建模步骤,

  1. Model:输入xf(x)定义为:当g(x)>0时,输出class=1,否则输出calss=2
  2. Loss function:L(f)=nδ(f(xn)y^n)
  3. 寻找最优函数

贝叶斯

贝叶斯公式

有两个盒子,都有蓝色球和绿色球,现在随机从两个盒子中抽出一个蓝色的球,根据贝叶斯公式可以计算。
4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)

现在我们有79只水系宝可梦、61只一般系宝可梦的Defense和SP Defense属性值,假设服从联合高斯分布fu1,Σ1=1(2π)D/21|Σ1|1/2exp{12(xu1)TΣ11(xu1)},fu2,Σ2=1(2π)D/21|Σ2|1/2exp{12(xu2)TΣ21(xu2)}
4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)

极大似然估计参数

u1,Σ1=argmaxu1,Σ1L(u1,Σ1)=argmaxu1,Σ1fu1,Σ1(x1)fu1,Σ1(x2)fu1,Σ1(x79)
u2,Σ2=argmaxu2,Σ2L(u2,Σ2)=argmaxu2,Σ2fu2,Σ2(x1)fu2,Σ2(x2)fu2,Σ2(x79)

解得,u1=179n=179xn,Σ1=179n=179(xnu1)(xnu1)T
u2=161n=80140xn,Σ2=161n=80140(xnu2)(xnu2)T

4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)

考虑引入更多的特征进一步建模,并且假设两类的高斯分布Σ相同以避免参数过多带来过拟合问题,同样使用极大似然估计估计参数:

u1,u2,Σ=argmaxu1,u2,ΣL(u1,u2,Σ)=argmaxu1,u2,Σn=179fu1,Σ(xn)n=80140fu2,Σ(xn)

求解得到:u1=179n=179xn,u2=161n=80140xn,Σ=7979+61Σ1+6179+61Σ2,结合机器学习的三步骤,此时得到的分类函数是线性的。
4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)

朴素贝叶斯

现在假设每一个类中的每一个变量的分布是独立的,P(x1,x2xn|C1)=i=1nP(xi|C1),此时只要估计每一个一维高斯分布的参数。

P(C1|x)=P(x|C1)P(C1)P(x|C2)P(C2)+P(x|C2)P(C2)=11+P(x|C2)P(C2)P(x|C1)P(C1)=11+exp(z),其中z=lnP(x|C2)P(C2)P(x|C1)P(C1)
4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)

4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)

4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)

4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)