聚类模型

1、层次聚类

2、原型聚类-K-means

3、模型聚类-GMM

4、EM算法-LDA主题模型

5、密度聚类-DBSCAN

6、图聚类-谱聚类

四、EM算法

一、EM算法

EM算法是一种迭代算法，用于带隐变量的概率模型参数的极大似然估计，是无监督学习中一大类算法求解的算法。EM算法每次迭代由两步组成，E步：假设隐变量和特征变量的联合分布 $P (x, z; θ)$ ，求解样本关于隐变量 $z$ 的概率函数（使Jensen不等式等号成立），M步：在已知样本 $(x, z)$ 的联合分布（确定样本特征和类标），采用极大似然估计最大化似然函数求解参数 $θ$ 。

在讨论EM算法之前，先介绍Jensen inequality（由凸函数性质导出）

假设f是定义在实数上的凸函数，由凸函数的定义有：

f (λ x^{(1)} + (1 - λ) x^{2}) \leq λ f (x^{(1)}) + (1 - λ) f (x^{2})

严格凸函数则严格大于，凸函数的判定是其二阶可微的话，其Hesse矩阵半正定。对凸函数的性质推广有：

f (\sum_{i = 1}^{k} (λ_{i} x^{(i)})) \leq \sum_{i = 1}^{m} λ_{i} f (x^{(i)}) s . t . \sum_{i = 1}^{m} λ_{i} = 1, λ_{i} \geq 0

当

λ_{i}

表示

f (x^{(i)}), x^{(i)}

的概率时，那么有：

f (E (x)) \leq E (f (x))

当且仅当：

p (f (x) = c) = 1

，即

f (x)

为常数函数，等号成立。

聚类模型-EM算法

反之，对于凹函数不等式方向相反。

现在来看EM算法，给定训练样本 ${x^{(1)}, x^{(2)}, . . x^{(m)}}$ ，引入隐含的类别标签 $z^{(i)}$ ，在有监督方法中，最大对数似然函数 $L = p (z | x; θ)$ ，同样这里最大化对数似然函数的 $L = (x^{(i)}; θ)$ 在隐变量 $z^{(i)}$ 的全期望：

\begin{aligned} (1) & L (θ) & = \sum_{i = 1}^{m} l o g P (x^{(i)}; θ) \\ (2) & = \sum_{i = 1}^{m} l o g \sum_{z^{(i)}} P (x^{(i)}, z^{(i)}; θ) \\ (3) & L (θ, Q (z)) & = \sum_{i = 1}^{m} l o g \sum_{z^{(i)}} Q_{i} (z^{(i)}) \frac{P (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} \\ (4) & \geq \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{P (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} \end{aligned}

其中

Q_{i} (z^{(i)})

为样本的隐变量

z^{(i)}

的概率分布，

\sum_{z} Q_{i} (z^{(i)}) = 1, Q_{i} (z^{(i)}) \geq 0

。不同

Q (z)

选择，会得到EM在不同情况下的模型，比如高斯混合，朴素贝叶斯混，LDA等。

因为 $l o g$ 函数是一个严格凹函数，由Jessen不等式有：

l o g (E (g (x)) \geq E (l o g (g (x)) l o g (\sum_{z^{(i)}} Q_{i} (z^{(i)}) \frac{P (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})}) \geq \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{P (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})}

其中

g (x) = \frac{P (x^{(i)}, z^{(i)} | θ)}{Q_{i} (z^{(i)})}

，因此当且仅当，

g (x) = c

，等号成立。

因为 $\sum_{z} Q_{i} (z^{(i)}) = 1, Q_{i} (z^{(i)}) \geq 0$ ，所以 $Q_{i} (z^{(i)})$ 可以看做是样本关于隐变量 $z$ 的概率分布，等于 $x, z$ 联合概率归一化，即比上联合概率对 $z$ 的全期望：

\begin{aligned} (5) & Q_{i} (z^{(i)}) & = \frac{p (x^{(i)}, z^{(i)}; θ)}{\sum_{z} p (x^{(i)}, z^{(i)}; θ)} \\ (6) & = \frac{p (x^{(i)}, z^{(i)}; θ)}{p (x^{(i)}; θ)} \\ (7) & = p (z^{(i)} | x^{(i)}; θ) \end{aligned}

因此，EM算法的第一步就是计算在给定

θ

下隐变量

z

的条件概率。

当已知 $Q_{(} z)$ 之后，且Jessen不等式等号成立，回过头来再最大化似然函数：

\begin{aligned} (8) & a r g max_{θ} L (θ, Q (z)) & = \sum_{i = 1}^{m} l o g \sum_{z^{(i)}} Q_{i} (z^{(i)}) \frac{P (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} \\ (9) & = \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{P (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} \end{aligned}

因此，EM算法的极大似然估计可以看作是坐标上升过程，第一步在给定的参数

θ

下最大化似然函数

L (Q (z); θ)

，第二步则是在当前的

Q (z)

下最大化似然函数

L (θ; Q (z))

。

收敛性：

\begin{aligned} (10) & L (θ^{t + 1}) & = \sum_{i = 1}^{m} l o g \sum_{z^{(i)}} Q_{i} (z^{(i)}) \frac{P (x^{(i)}, z^{(i)}; θ^{t + 1})}{Q_{i} (z^{(i)})} \\ (11) & \geq \sum_{i = 1}^{m} \sum_{z^{(i)}} P (z^{(i)} | x^{(i)}, θ^{t}) l o g \frac{P (z^{(i)}, x^{(i)}; θ^{t + 1})}{P (z^{(i)} | x^{(i)}; θ^{t})} \\ (12) & \geq \sum_{i = 1}^{m} \sum_{z^{(i)}} P (z^{(i)} | x^{(i)}; θ^{t}) l o g \frac{P (z^{(i)}, x^{(i)}; θ^{t})}{P (z^{(i)} | x^{(i)}; θ^{t})}) \\ (13) & = L (θ^{t}) \end{aligned}

L (Q (z), θ^{(i)}) \leq L (Q (z), θ^{(i + 1)}) \leq L (Q^{*} (z), θ^{(i + 1)})

下面的第一个不等号由由最大似然估计得到 $θ^{(i + 1)}$ ，第二个不等号Jessen不等式得到 $Q^{*} (z) = p (z^{(i)} | x^{(i)}; θ)$ ，但是求解过程是先由Jessen不等式确定似然函数的下界，后最大似然函数下界。

EM算法的一般流程：

E-step：（固定参数下，求隐变量条件分布）

\begin{aligned} (14) & Q_{i} (z^{(i)}) = p (z^{(i)} | x^{(i)}; θ) \end{aligned}

M-step：（最大化似然函数下界）

\begin{aligned} (15) & a r g max_{θ} \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{P (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} \end{aligned}

EM求解的过程大致如图所示，是否能收敛到全局最优，取决于目标函数是否为凸函数：

聚类模型-EM算法

从上图可以看出，EM算法的思想也是坐标上升的思想，即固定一组变量求解另一组变量，不断地迭代。比较特殊的，EM算法针对于带隐变量的概率模型参数的极大似然估计，求解过程又称“期望最大化”，第一步求期望，第二步最大化，这是带隐变量的概率模型特有的，不是EM算法的特点。

二、EM算法例子-高斯混合，朴素贝叶斯混合

高斯混合模型

为什么采用EM算法求解高斯混合模型，回顾高斯混合模型的目标函数，我们发现 $l o g$ 函数在求和外面。特别的情况是当类标签已知，像高斯判别模型那么进行参数估计，然而在混合高斯模型中。而隐变量却是未知，所以我们很难直接优化，采用EM算法的Jessen不等式，我们将 $l o g$ 函数放到里面，并使等号成立，对目标函数进行转化：

L (θ) = \sum_{i = 1}^{m} l o g \sum_{z^{(i)} = 1}^{k} (P (x^{(i)}, z^{(i)}; μ, Σ, Φ)) L (θ,) \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{P (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})}

其中

Q_{i} (z^{(i)})

条件概率分布

P (z | x; θ)

。

下面从EM思想来看高斯混合模型，给出高斯混合模型最大似然估计计算出参数的推导过程：

E-step:（固定参数下，求隐变量条件分布）

w_{j}^{(i)} = Q (z^{(i)} = j) = p (z^{(i)} | x^{(i)}; μ, Σ, ϕ) = \frac{p (x^{(i)} | z^{(i)}; μ, Σ) p (z^{(i)} = j; ϕ)}{\sum_{j = 1}^{k} p (x^{(i)} | z^{(i)} = j; μ, Σ) p (z^{(i)} = j; ϕ)}

其中

p (x | z)

服从高斯分布，

p (z)

服从伯努利分布。

M-step:（最大化似然函数下界）

\begin{aligned} (35) & a r g max_{θ} L (θ, Q (z)) & = \sum_{i = 1}^{m} l o g \sum_{z^{(i)}} Q_{i} (z^{(i)}) \frac{P (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} \\ (36) & \geq \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{P (x^{(i)} | z^{(i)}; μ, Σ) P (z^{(i)}; ϕ)}{Q_{i} (z^{(i)})} \\ (37) & = \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} l o g \frac{\frac{1}{(2 π)^{n / 2} | Σ |^{1 / 2}} \exp {- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)} * ϕ_{j}}{w_{j}^{(i)}} \end{aligned}

对

μ, Σ, ϕ

求导：

\begin{aligned} (38) & ▽_{μ_{j}} \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} l o g \frac{\frac{1}{(2 π)^{n / 2} | Σ |^{1 / 2}} \exp {- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)} * ϕ_{j}}{w_{j}^{(i)}} \\ (39) & = - ▽_{μ_{j}} \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} {\frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)} * ϕ_{j} \\ (40) & = \frac{1}{2} \sum_{i = 1}^{m} w_{j}^{(i)} ▽_{μ_{j}} 2 μ_{j}^{T} Σ_{j}^{- 1} x^{(i)} - μ_{j}^{T} Σ_{j}^{- 1} μ_{j} \\ (41) & = Σ_{i = 1}^{m} w_{j}^{(i)} (Σ_{j}^{- 1} - Σ_{j}^{- 1} μ_{j}) \end{aligned}

令导数为0，有：

μ_{j} = \frac{\sum_{i = 1}^{m} w_{j}^{(i)} 1 {z^{(i)} = j} x^{(i)}}{\sum_{i = 1}^{m} 1 {z^{(i)} = j}}

对目标函数求解参数

ϕ

，去掉无关项，有：

\sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} l o g ϕ_{j}

由

\sum_{j = 1}^{k} ϕ_{j} = 1

，对其拉格朗日函数求导：

▽_{ϕ_{j}} L (ϕ, β) = ▽_{ϕ_{j}} \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} l o g ϕ_{j} + β ((\sum_{j = 1}^{k} ϕ_{j}) - 1) = \sum_{i = 1}^{m} \frac{w_{j}^{(i)}}{ϕ_{j}} + β

令其导数为0，有：

ϕ_{j} = \frac{\sum_{i = 1}^{m} w_{j}^{(i)}}{- β}

所以，

ϕ_{j} \propto \sum_{i = 1}^{m} w_{j}^{(i)}

，又

\sum_{j} ϕ_{j} = 1

，所以得

- β = \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} = m

所以：

ϕ_{j} = \sum_{i = 1}^{m} \frac{w_{j}^{(i)}}{m}

聚类模型-EM算法

聚类模型

1、层次聚类

2、原型聚类-K-means

3、模型聚类-GMM

4、EM算法-LDA主题模型

5、密度聚类-DBSCAN

6、图聚类-谱聚类

四、EM算法

一、EM算法

二、EM算法例子-高斯混合，朴素贝叶斯混合

相关推荐