Gaussian Discriminant Analysis model 第一个生成学习算法模型

这是课程讲到的第一个生成学习算法，它将对p(x|y)建模。

它要解决分类问题，此例中y只取0或1，x取连续量。

对此模型的定义：
Gaussian Discriminant Analysis model 第一个生成学习算法模型

y显然是伯努利分布，这里我们假设了x服从多维正态分布。

具体展开上面的概率分布：

Gaussian Discriminant Analysis model 第一个生成学习算法模型

我们依然用最大化拟然函数的方法得到各参数的最优值：（与前面稍有不同，前面我们用p(y|x)来得出拟然函数，但这里我们为了简化计算，采用p(x,y)得出，事实上，两者同时取最值。）

Gaussian Discriminant Analysis model 第一个生成学习算法模型

将概率分布代入上式，最大化这个函数，得到：（过程略）

Gaussian Discriminant Analysis model 第一个生成学习算法模型

这些结果是很合理的，符合它的含义，μ0其实是所有分类为0的样本中xi出现次数的和，它作为期望值合情合理。其他参数也同理。

Gaussian Discriminant Analysis model 第一个生成学习算法模型

这是算法得出的结果，注意到，它与线性回归类似，实质上也是得到了一个决策边界：一条直线。

事实上，本文中的GDA模型与logistic回归是有联系的，下篇博文将总结。

当 p(x|y) 时高斯分布是，可导出 p(y|x) 符合某种形式的logistic函数反之则不一定成立。这说明，GDA对数据的特征进行了更强的假设，当假设正确时，GDA通常能取得比logistic更好的性能。当p(x|y) 真的是服从高斯分布时，GDA是asymptoticallyeﬃcient 渐近有效的，意即，没有别的算法能比他严格地更好

logistic做了更弱地假设，优点是假设错误时代价小，更具普适意义，也更常用

Gaussian Discriminant Analysis model 第一个生成学习算法模型

相关推荐