您的位置: 首页 > 文章 > EM算法--expectation maximization

EM算法--expectation maximization

分类: 文章 • 2024-01-28 09:17:22

老师课堂总结，请勿转载

重新思考分类或聚类

我们转换思路, 将聚类看做一类缺失值估计问题。缺失的值就是每个样本的类别标签
令 D = {x(1),x(2),…x(n)} 表示一组观测值
令H = {z(1),z(2),..z(n)} 表示隐含变量Z的n个取值.
z(i) 与x(i)一一对应
观测值的对数似然函数可表示为

EM算法--expectation maximization

在MLE中我们之估计 ,但在包含隐含变量的问题中我们还需要估计H. 令Q(H)表示隐含变量的概率

EM算法--expectation maximization

似然函数

EM算法--expectation maximization

生成式的思想是一种反转思想. 与其找到最好的分类器，不如找到一个最好数据生成器. 该生成器能使得数据的似然函数最大. 数据的概率在上面公式中相对固定,所以最大化似然函数是关键.

Jensen不等式—下凸型

EM算法--expectation maximization

EM算法--expectation maximization

Inequality is because of Jensen’s Inequality.
This means that the F(Q,θ) is a lower bound on l(θ)

Notice that the log of sums is become a sum of logs

混合模型

复杂样本分布很难用单一概率密度函数刻画准确,这就引出利用混合模型“ 生成”数据的想法

EM算法--expectation maximization

EM算法--expectation maximization

EM在下面两步之间循环迭代:
将Q看做变量最大化F
将θ看做变量最大化F

EM算法--expectation maximization

EM算法--expectation maximization

反复迭代上述两个步骤，直至算法收敛

EM算法与K-means

EM考虑全面，不管是圈内圈外期望可大可小

K-means只是考虑圈内的点对期望的影响要么是0要是是1

EM算法与k-means算法具有很多相似性.
The E步就是赋值操作即计算临时的后验概率或类别标签
M步是更新各类别的中心

The maximization step is the update of centers.