EM算法与高斯混合模型

EM算法（The Expectation-Maximization Algorithm）可以解决HMM的参数估计问题，在MT中的词对齐中也会用到。

Jensen不等式

Jensen不等式表述如下：
如果f是凸函数，X是随机变量，那么 $E [f (X)] \geq f (E [X])$ 特别地，如果f是严格凸函数，那么 $E [f (X)] = f (E [X])$ ;当且仅当 $p (x = E [x]) = 1$ ,也就说 $X$ 是常量。用图表示就是：
EM算法与高斯混合模型
Jensen不等式应用于凹函数时，不等号方向反向，也就是 $E [f (X)] \leq f (E [X])$

Jensen’s Inequality
当 $f$ 为凸函数且 $\sum_{i} λ_{i} = 1, λ_{i} \geq 0$ 时，有 $f (\sum_{i} λ_{i} x_{i}) \leq \sum_{i} λ_{i} f (x_{i})$

极大似然估计

极大似然估计(Maximum Likelihood Estimation)提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。但其前提是，假设所有的采样都是独立同分布的。
假设 $x_{1}, x_{2}, \dots, x_{n} d i i$ ,参数为θ的模型f产生上述采样可表示为:

f (x_{1}, x_{2}, \dots, x_{n} | θ) = f (x_{1} | θ) \cdot f (x_{2} | θ), \dots, \cdot f (x_{n} | θ)

此时

x_{1}, x_{2}, \dots, x_{n}

为已知，

θ

为未知，则定义为

L (θ | x_{1}, x_{2}, \dots, x_{n}) = f (x_{1}, x_{2}, \dots, x_{n} | θ) = \prod_{i = 1}^{n} f (x_{i} | θ)

在实际应用中常用的是两边取对数（Ln 或者 log不影响），得到公式如下：

\ln L (θ | x_{1}, x_{2}, \dots, x_{n}) = \sum_{i = 1}^{n} \ln f (x_{i} | θ) \hat{ι} = \frac{1}{n} \ln L

其中

\ln L (θ | x_{1}, x_{2}, \dots, x_{n})

称为对数似然，而

\hat{ι}

称为平均对数似然。而我们平时所称的最大似然为最大的对数平均似然，即：

θ = \arg max_{θ} L (θ | X)

显然对

L (θ | X)

求导，令导数得0 ，求得的解即为最优的

θ^{*}

了,而且对MLE来说数据量越多，所得到的模型会越能反映数据的真实分布。

EM算法

期望最大化算法（Expectation Maximization Algorithm，EM）用于含有隐变量概率模型的MLE，隐变量就是每个可见随机变量的值都对应着一个隐藏的随机变量。参见三硬币模型实例

问题描述

给定一个训练集 $X = x^{1}, \dots, x^{m}$ ，我们希望拟合包含隐含变量z的模型 $P (x, z; θ)$ 中的参数 θ。根据模型的假设，每个我们观察到的 $x^{i}$ 还对应着一个我们观察不到的隐含变量 $z^{i}$ ，我们记 $Z = z^{1}, \dots, z^{m}$ 。做极大对数似然就是要求θ的“最优值”：

θ = \arg max_{θ} L (θ | X)

其中

L (θ) = \log P (X | θ) = \log \sum_{Z} P (X, Z | θ)

直接使用log 套∑的形式直接求解θ往往非常困难。EM 通过迭代逐步极大化

L (θ)

，假设第i次迭代后θ的估计值是

θ^{i}, θ^{i}

已知后，下一次迭代需要使得

L (θ)

更大.

EM算法基本步骤

输入:观测数据X，隐变量数据 Z，联合分布 $P (X, Z | θ)$
输出：极大似然参数θ
1. 选择初始参数 $θ^{0}$ ；
2. E Step：计算隐变量 $Z$ 在参数 $θ^{i}$ 下的后验分布 $P (Z | X, θ^{i})$ 以得到：
$\begin{aligned} E_{Z | X; θ^{i}} L (θ | X, Z) & := E_{Z | X; θ^{i}} \log P (X, Z | θ) \\ = \sum_{Z} P (Z | X, θ^{i}) \log P (X, Z | θ) \end{aligned}$
3. M Step：估计 $θ^{(i + 1)}$ 的值：
$θ^{(i + 1)} = a r g max_{θ} E_{Z | X, θ_{i}} L (X, Z | θ)$
4. 重复（2）至（3），直到收敛.

EM 算法每次迭代都建立在上轮迭代对θ的最优值的估计 $θ^{i}$ 上,利用它可以求出Z的后验概率 $P (Z | X, θ^{i})$ ，进而求出 $L (θ | X, Z)$ 在分布 $Z \sim P (Z | X, θ)$ 上的期望 $E_{Z | X; θ^{i}} L (θ | X, Z)$ 。

因为 $\arg max_{θ} L (θ | X, Z)$ 在未知Z的情况下难以直接计算,EM算法就转而通过最大化它的期望 $E_{Z | X; θ^{i}} L (θ | X, Z)$ 来逼近θ的最优值，得到 $θ^{(t + 1)}$ 。注意由于 $L (θ | X, Z)$ 的这个期望是在Z的一个分布上求的，这样得到的表达式就只剩下θ一个未知量，因而绕过了z未知的问题。而 $θ^{(i + 1)}$ 又可以作为下轮迭代的基础，继续向最优逼近。

算法中E-step就是在利用 $θ^{i}$ 求期望 $E_{Z | X; θ^{i}} L (θ | X, Z)$ ，这就是所谓“Expectation”；
M-step就是通过寻找 $θ^{(i + 1)}$ 最大化这个期望来逼近θ的最优值，这就“Maximization”。

EM算法推导

\begin{aligned} L (θ) & = \log P (X | θ) \\ = \log \sum_{Z} P (X, Z | θ) \end{aligned}

引入一个概率分布

Q (θ, θ^{i}) = E_{Z | X, θ^{i}} \log L (θ | X, Z) = P (Z | X, θ^{i})

,利用分子分母同乘

Q (θ, θ^{i})

的trick(期望可以写成概率和样本的乘积形式)，得到：

\begin{aligned} L (θ) & = \log \sum_{Z} P (X, Z | θ) \\ = \log \sum_{Z} Q (θ, θ^{i}) \frac{P (X, Z | θ)}{Q (Z)} \\ = \log E_{Z \sim Q} [\frac{P (X, Z | θ)}{Q (Z)}] \end{aligned}

根据 Jensen 不等式,对于任意分布

Q

都有：

L (θ) = \log E_{Z \sim Q} [\frac{P (X, Z | θ)}{Q (θ, θ^{i})}] \geq E_{Z \sim Q} [\log \frac{P (X, Z | θ)}{Q (Z)}]

且上面的不等式在

\frac{P (X | Z, θ)}{Q (θ, θ^{i})}

为常数时取等号。之后

Q （ θ, θ^{i} ）

用贝叶斯公式展开：

Q (θ, θ^{i}) = \frac{P (X | Z, θ^{i}) P (Z | θ^{i})}{P (X | θ^{i})}

带入回上式：

\begin{aligned} L (θ) & \geq E_{Z | X, θ^{i}} [\log \frac{P (X, Z | θ)}{P (Z | X, θ^{i})}] \\ = E_{Z | X, θ^{i}} \log [\frac{P (X | Z) P (Z | θ) P (X | θ^{i})}{P (X | Z, θ^{i}) P (Z | θ^{i})}] \\ = E_{Z | X, θ^{i}} \log [\frac{P (Z | θ) P (X | θ^{i})}{P (Z | θ^{i})}] \\ = E_{Z | X; θ^{i}} [\log P (Z | θ)] + E_{Z | X; θ^{i}} [\log P (X | θ^{i})] - E_{Z | X; θ^{i}} [\log P (Z | θ^{i})] \\ = Q (θ, θ^{i}) - Q (θ^{i}, θ^{i}) + L (θ^{i}) \end{aligned}

第二行

P (X | Z), P (X | Z, θ^{i})

这两个其实相同所以约去；最后一行在已知

θ^{i}

时，仅

Q (θ, θ^{i})

不固定,所以需要不断调整下一时刻

θ

使之最大。即可得到：

θ^{t + 1} := \arg max_{θ} Q (θ, θ^{i})

除以上方法推导，还可以用前项减后项方法推导 $L (θ) - L (θ^{(i)})$
具体见The Expectation Maximization Algorithm A short tutorial

高斯混合模型

高斯分布

假设数据 $x \in R^{n}$ 服从参数为 $μ, Σ$ 的高斯分布:

N (x; μ, Σ) = \frac{1}{(2 π)^{n / 2} | Σ |^{1 / 2}} \exp {- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}

这里

μ

为均值，

Σ

为协方差矩阵，对于单个高斯分布，当给定数据集之后，直接进行 MLE 即可估计高斯分布的参数；但是有些数据集是多个高斯分布叠加在一起形成的，也就数据集是由多个高斯分布产生的，如下图所示三个高斯分布叠加在一起：
EM算法与高斯混合模型

多个高斯分布叠加在一起便是混合高斯模型 GMM,其的定义如下：

p (x) = \sum_{k = 1}^{K} π_{k} N (x | μ_{k}, Σ_{k})

这里

K

表示高斯分布的个数,

π_{k}

代表混合系数,且满足

0 \leq π_{k} \leq 1, \sum_{k} π_{k} = 1

,可以把

π_{k}

看做每个模型的权重。如果把 GMM 用在聚类中，则样本x的类别即为

\arg max_{k} π_{k}

在 GMM 中，需要估计的参数为 $π_{k} ， μ_{k} ， Σ_{k}$ 模型里每个观测数据x都对应着一个隐变量 $z \in R^{K}$ ，代表的即为类别变量，且 $z_{k} \in {0, 1}$ ,一个样本可以属于多个类别，叠加起来概率为 1，这里显而易见有：

p (z_{k} = 1) = π_{k}

对于GMM的参数采用EM算法来求解，其完全数据的联合分布为：

p (X, Z | μ, Σ, π) = \prod_{n = 1}^{N} {\sum_{k = 1}^{K} π_{k} N (x_{n} | μ_{k}, Σ_{k})}

写成对数似然函数的形式：

\ln p (X,Z | μ, Σ, π) = \sum_{n = 1}^{N} \ln {\sum_{k = 1}^{K} π_{k} N (x_{n} | μ_{k}, Σ_{k})}

EM算法求解GMM的步骤

E步： 使用参数 $θ^{o l d} = (π^{o l d}, μ^{o l d}, Σ^{o l d})$ ，计算每个样本 $x_{n}$ 对应隐变量 $z_{n}$ 的后验分布：
$\begin{aligned} γ (z_{n k}) = p (z_{n} = k | x_{n}; μ^{o l d}, Σ^{o l d}) & = \frac{p (z_{n k} = 1) p (x_{n k} | z_{n k} = 1)}{\sum_{j = 1}^{K} p (z_{n j} = 1) p (x_{n} | z_{n j} = 1)} \\ = \frac{π_{k}^{o l d} N (x_{n} | μ_{k}^{o l d}, Σ_{k}^{o l d})}{Σ_{j = 1}^{K} π_{j}^{o l d} N (x_{n} | μ_{j}^{o l d}, Σ_{j}^{o l d})} \end{aligned}$
M步： 极大化Q函数的计算
$\begin{aligned} Q (θ, θ^{old}) & = \sum_{Z} p (Z | X, θ^{o l d}) \ln p (X, Z | θ) \\ = \sum_{Z} p (Z | X, θ^{o l d}) \ln p (X | Z, θ) P (Z | θ) \\ = \sum_{n = 1}^{N} \sum_{k = 1}^{K} γ (z_{n k}) {\ln π_{k} + \ln N (x_{n} | μ_{k}, Σ_{k})} \end{aligned}$
得到下一步迭代的参数：
$θ^{n e w} = \arg max_{θ} Q (θ, θ^{old})$

对Q函数求导，令倒数得0，即可求得下一次迭代的参数值
$\begin{aligned} μ_{k}^{n e w} & = \frac{1}{N_{k}} \sum_{n = 1}^{N} γ (z_{n k}) x_{n} \\ Σ_{k}^{n e w} & = \frac{1}{N_{k}} \sum_{n = 1}^{N} γ (z_{n k}) (x_{n} - μ_{k}^{n e w}) (x_{n} - μ_{k}^{n e w})^{T} \\ π_{k}^{n e w} & = \frac{N_{k}}{N} \end{aligned}$
其中：
$N_{k} = \sum_{n = 1}^{N} γ (z_{n k})$

EM算法与高斯混合模型

EM算法与高斯混合模型

Jensen不等式

极大似然估计

EM算法

问题描述

EM算法基本步骤

EM算法推导

高斯混合模型

高斯分布

EM算法求解GMM的步骤

相关推荐