EM算法（2）

1.EM算法
假定有训练数据集
$\left\{x^{(1)}, x^{(2)}, \cdots, x^{(m)}\right\}$
包含m个独立样本，希望从中找出该组数据得模型模型 $p(x, z)$ 得参数。
取对数似然函数
$\begin{aligned} &l(\theta)=\sum_{i=1}^{m} \log p(x ; \theta)\\ &=\sum_{i=1}^{m} \log \sum_{z} p(x, z ; \theta) \end{aligned}$
z是隐随机变量，不方便直接找到参数估计，使用下面的策略找出：计算 $1(\theta)$ 的下界，求该下界最大值；重复该过程，直到收敛到局部最大值。
EM算法（2）
令 $Q_i$ 是z的某一个分布， $Q_i \geq 0$ ，有：
$l(\theta)=\sum_{i=1}^{m} \log \sum_{z} p(x, z ; \theta)=\sum_{i=1}^{m} \log \sum_{z^{(i)}} p\left(x^{(i)}, z^{(i)} ; \theta\right)$ $\begin{aligned} &=\sum_{i=1}^{m} \log \sum_{z^{(M}} Q_{i}\left(z^{(i)}\right) \frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{Q_{i}\left(z^{(i)}\right)}\\ &\geq \sum_{i=1}^{m} \sum_{z^{(i)}} Q_{i}\left(z^{(i)}\right) \log \frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{Q_{i}\left(z^{(i)}\right)} \end{aligned}$
寻找尽量紧的下界，可以令：
$\frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{Q_{i}\left(z^{(i)}\right)}=c$
进一步分析：
$\begin{array}{c} Q_{i}\left(z^{(i)}\right) \propto p\left(x^{(i)}, z^{(i)} ; \theta\right) \quad \sum_{z} Q_{i}\left(z^{(i)}\right)=1 \\ Q_{i}\left(z^{(i)}\right)=\frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{\sum_{z} p\left(x^{(i)}, z^{(i)} ; \theta\right)} \\ =\frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{p\left(x^{(i)} ; \theta\right)} \\ =p\left(z^{(i)} | x^{(i)} ; \theta\right) \end{array}$
EM算法整体框架：
EM算法（2）
2.从理论公式推导GMM
随机变量X是由K个高斯分布混合而成，取各个高斯分布的概率为 $\varphi_{1} \varphi_{2} \cdots \varphi_{K}$ ,第i个高斯分布的均值为 $\mu_i$ ，方差为 $\sum_i$ 。若观测到随机变量X的一系列样本 $\mathrm{x}_{1}, \mathrm{x}_{2}, \ldots, \mathrm{x}_{\mathrm{n}}$ ,试估计参数 $\varphi, \quad \boldsymbol{\mu}, \quad \boldsymbol{\Sigma}$ 。
E-step
$w_{j}^{(i)}=Q_{i}\left(z^{(i)}=j\right)=P\left(z^{(i)}=j | x^{(i)} ; \phi, \mu, \Sigma\right)$
M-step
将多项分布和高斯分布的参数带入:
$\begin{array}{l} \sum_{i=1}^{m} \sum_{z^{(i)}} Q_{i}\left(z^{(i)}\right) \log \frac{p\left(x^{(i)}, z^{(i)} ; \phi, \mu, \Sigma\right)}{Q_{i}\left(z^{(i)}\right)} \\ \quad=\sum_{i=1}^{m} \sum_{j=1}^{k} Q_{i}\left(z^{(i)}=j\right) \log \frac{p\left(x^{(i)} | z^{(i)}=j ; \mu, \Sigma\right) p\left(z^{(i)}=j ; \phi\right)}{Q_{i}\left(z^{(i)}=j\right)} \\ \quad=\sum_{i=1}^{m} \sum_{j=1}^{k} w_{j}^{(i)} \log \frac{\frac{1}{(2 \pi)^{n / 2}\left|\Sigma_{j}\right|^{1 / 2}} \exp \left(-\frac{1}{2}\left(x^{(i)}-\mu_{j}\right)^{T} \Sigma_{j}^{-1}\left(x^{(i)}-\mu_{j}\right)\right) \cdot \phi_{j}}{w_{j}^{(i)}} \end{array}$
对均值求偏导
$\begin{array}{l} \nabla_{\mu_{l}} \sum_{i=1}^{m} \sum_{j=1}^{k} w_{j}^{(i)} \log \frac{\frac{1}{\left.\left.(2 \pi)^{n / 2}\right|\sum_ j\right|^{1 / 2}} \exp \left(-\frac{1}{2}\left(x^{(i)}-\mu_{j}\right)^{T} \Sigma_{j}^{-1}\left(x^{(i)}-\mu_{j}\right)\right) \cdot \phi_{j}}{w_{j}^{(i)}} \\ \quad=-\nabla_{\mu_{l}} \sum_{i=1}^{m} \sum_{j=1}^{k} w_{j}^{(i)} \frac{1}{2}\left(x^{(i)}-\mu_{j}\right)^{T} \Sigma_{j}^{-1}\left(x^{(i)}-\mu_{j}\right) \\ \quad=\frac{1}{2} \sum_{i=1}^{m} w_{l}^{(i)} \nabla_{\mu_{l}} 2 \mu_{l}^{T} \Sigma_{l}^{-1} x^{(i)}-\mu_{l}^{T} \Sigma_{l}^{-1} \mu_{l} \\ \quad=\sum_{i=1}^{m} w_{l}^{(i)}\left(\Sigma_{l}^{-1} x^{(i)}-\Sigma_{l}^{-1} \mu_{l}\right) \end{array}$
令上式等于0，解的均值为：
$\mu_{l}:=\frac{\sum_{i=1}^{m} w_{l}^{(i)} x^{(i)}}{\sum_{i=1}^{m} w_{l}^{(i)}}$
对方差求偏导，等于0
$\Sigma_{j}=\frac{\sum_{i=1}^{m} w_{j}^{(i)}\left(x^{(i)}-\mu_{j}\right)\left(x^{(i)}-\mu_{j}\right)^{T}}{\sum_{i=1}^{m} w_{j}^{(i)}}$
多项分布参数，考察M-step的目标函数，对于 $\phi$ ，删除常数项
$\sum_{i=1}^{m} \sum_{j=1}^{k} w_{j}^{(i)} \log \frac{\frac{1}{(2 \pi)^{n / 2}\left|\Sigma_{j}\right|^{1 / 2}} \exp \left(-\frac{1}{2}\left(x^{(i)}-\mu_{j}\right)^{T} \Sigma_{j}^{-1}\left(x^{(i)}-\mu_{j}\right)\right) \cdot \phi_{j}}{w_{j}^{(i)}}$
得到
$\sum_{i=1}^{m} \sum_{j=1}^{k} w_{j}^{(i)} \log \phi_{j}$
拉格朗日乘子法
由于多项分布的概率和为1，建立拉格朗日方程
$\mathcal{L}(\phi)=\sum_{i=1}^{m} \sum_{j=1}^{k} w_{j}^{(i)} \log \phi_{j}+\beta\left(\sum_{j=1}^{k} \phi_{j}-1\right)$
求偏导，等于0
$\begin{array}{c} \frac{\partial}{\partial \phi_{j}} \mathcal{L}(\phi)=\sum_{i=1}^{m} \frac{w_{j}^{(i)}}{\phi_{j}}+\beta \\ -\beta=\sum_{i=1}^{m} \sum_{j=1}^{k} w_{j}^{(i)}=\sum_{i=1}^{m} 1=m \\ \phi_{j}:=\frac{1}{m} \sum_{i=1}^{m} w_{j}^{(i)} \end{array}$
总结，对于所有的数据点，可以看作组份k生成了这些点。组份k是一个标准的高斯分布，利用上面结论： $\left\{\gamma(i, k) x_{i} | i=1,2, \cdots N\right\}$ 。
$\left\{\begin{array}{l} \mu_{k}=\frac{1}{N_{k}} \sum_{i=1}^{N} \gamma(i, k) x_{i} \\ \Sigma_{k}=\frac{1}{N_{k}} \sum_{i=1}^{N} \gamma(i, k)\left(x_{i}-\mu_{k}\right)\left(x_{i}-\mu_{k}\right)^{T} \\ \pi_{k}=\frac{1}{N} \sum_{i=1}^{N} \gamma(i, k) \\ N_{k}=N \cdot \pi_{k} \end{array}\right.$

相关推荐