盒马唠机器学习之EM算法

EM算法是一种迭代的算法，1977年由Dempster等人提出，用于含有隐变量（Hidden Variable）的概率模型参数的极大似然估计，或极大后验概率估计。它的计算方法中每一次迭代都分两步，其中一个为期望步（E步），另一个为极大步（M步），所以算法被称为EM算法（Expectation Maximization Algorithm）。其基本思想是：首先根据己经给出的观测数据，估计出模型参数的值；然后再依据上一步估计出的参数值估计缺失数据的值，再根据估计出的缺失数据加上之前己经观测到的数据重新再对参数值进行估计，然后反复迭代，直至最后收敛，迭代结束。

极大似然估计

在介绍EM算法之前，我们先来介绍极大似然估计，通过极大似然估计的例子引出EM算法。

一个栗子：假设你在校园里随便找了100学生。然后统计抽样得到的100个学生的身高。假设他们的身高是服从正态分布的。但是这个分布的均值μ和方差σ2我们不知道，这两个参数就是我们要估计的。记作θ=[μ,σ]T。

欲求在抽样X时，最优的μ和σ2参数估计，虽然模型的原型已知，但不同的参数对应着不同的学生成绩分布，其中一种最简单有效的参数估计方法就是估计的参数在目前抽样的数据上表现最好，即使得f(X|μ,σ2)的联合概率最大，即什么样的参数μ和σ2能恰好符合观测样本分布的规则。

估计：

假设：样本集X={x1,x2,…,xN}， N=100。概率密度：p(xi|μ,σ2)抽到学生i（的身高）的概率。μ和σ2是服从分布的参数。独立同分布：同时抽到这100个男生的概率就是他们各自概率的乘积。

盒马唠机器学习之EM算法

在实际计算中，对数函数是一个严格递增的函数，对数似然函数取代似然函数后，计算要简单很多，而且直接的似然函数计算中涉及大量浮点概率的乘法，容易导致计算机浮点计算精不够而出现机器0值，更普遍的如公式(3)去求值。余下的问题，就是求l(μ,σ2|X)的极大值的过程，即参数的一阶偏导为0的极值点，在此不详述了，直接给出式子。

盒马唠机器学习之EM算法