HMM——定义和假设

概念讲解

概率模型（Probabilistic Model）

所谓概率模型，顾名思义，就是将学习任务归结于计算变量的概率分布的模型。

概率模型非常重要。在生活中，我们经常会根据一些已经观察到的现象来推测和估计未知的东西——这种需求，恰恰是概率模型的推断（Inference）行为所做的事情。

推断（Inference）的本质是：利用可观测变量，来推测未知变量的条件分布。

我们下面要讲的隐马尔可夫模型（HMM）和条件随机场（CRF）都是概率模型，之前讲过的朴素贝叶斯和逻辑回归也是概率模型。

生成模型和判别模型

概率模型可以分为生成模型（Generative Model）和判别模型（Discriminative Model）

我们将可观测变量的集合命名为 $O$ ，我们感兴趣的未知变量的集合命名为 $Y$ 。
生成模型学习出来的是 $O$ 和 $Y$ 的联合概率分布 $P(O,Y)$ ，而判别模型学校的是条件概率分布 $P(Y|O)$ ，前面提到的朴素贝叶斯模型是生成模型，而逻辑回归是判别模型。

对于某一个给定的观察值，运用条件概率 $P(Y|O)$ 很容易求出它对于不同 $Y$ 的取值。那么当遇到分类问题时，直接就可以运用判别模型根据给定 $O$ 对于哪一个 $Y$ 值的条件概率最大，来判断该观测样本该属于的类别。

而生成模型也可以用来给观测样本分类，通过运用贝叶斯法则，将生成模型转化为判别模型，这样会比较麻烦。所以在分类问题上，判别模型一般更具优势，不过生成模型自有其专门的用途。本讲HMM就是一种生成模型。

概率图模型（Probabilistic Graphical Model）

概率图模型：是一种以图（Graph）为表示工具，来表达变量间相关关系的概率模型。这里说的图：一种由节点和连接节点的边组成的数据结构。

在概率图模型中，一般用节点来表示一个或者一组随机变量，而节点之间的边则表示两个（组）变量之间的概率相关关系。

边可以是有向（有方向）的，也可以是无向的。概率图模型大致可以分为：

有向图模型（贝叶斯网络）：用有向无环图表示变量间的依赖关系；
无向图模型（马尔可夫网）：用无向图表示变量间的相关关系。

HMM 就是贝叶斯网络的一种——虽然它的名字里有和“马尔可夫网”一样的“马尔可夫”。

对变量序列建模的贝叶斯网络又叫做动态贝叶斯网络。HMM 就是最简单的动态贝叶斯网络。

马尔可夫链，马尔可夫随机场和条件随机场

（系列笔记）15.HMM系列（1）

隐马尔可夫模型（Hidden Markov Model，HMM）

HMM定义

HMM 是一个关于时序的概率模型，它的变量分为两组：

状态变量{ $s_1,s_2,...,s_T$ }，其中 $s_t \in S$ 表示t时刻的系统状态；
观测变量{ $o_1,o_2,...,o_T$ }，其中 $o_t \in O$ 表示t时刻的观测值。

状态变量和观测变量各自都是一个时间序列，每个状态/观测值都和一个时刻相对应（见下图，图中箭头表示依赖关系）：
（系列笔记）15.HMM系列（1）
一般假定状态序列是隐藏的、不能被观测到的，因此状态变量是隐变量（Hidden Variable）——这就是 HMM 中 H（Hidden）的来源。这个隐藏的、不可观测的状态序列是由一个马尔可夫链随机生成的——这是 HMM 中的第一个 M（Markov）的含义。

一条隐藏的马尔可夫链随机生成了一个不可观测的状态序列（State Sequence），然后每个状态又对应生成了一个观测结果，这些观测值按照时序排列后就成了观测序列（Observation Sequence）。这两个序列是一一对应的，每个对应的位置又对应着一个时刻。

一般而言，HMM 的状态变量取值是离散的，而观测变量的取值，则可以是离散的，也可以是连续的。

不过为了方便讨论，也因为在大多数应用中观测变量也是离散的，因此，我们下面仅讨论状态变量和观测变量都是离散的情况。

HMM基本假设

HMM 的定义建立在两个假设之上：

假设1：假设隐藏的马尔可夫链在任意时刻 t 的状态只依赖于前一个时刻（t-1）的状态，而与其他时刻的状态和观测无关，也与时刻t无关。公式表达：
（系列笔记）15.HMM系列（1）
这一假设又叫齐次马尔科夫假设。

假设2：假设任意时刻的观测只依赖于该时刻的马尔可夫链状态，与其他观测及状态无关。用公式表达为：
（系列笔记）15.HMM系列（1）
这叫做观测独立性假设。

确定HMM的两个空间和三组参数

基于上述两个假设，可知：所有变量（包括状态变量和观测变量）的联合分布为：
（系列笔记）15.HMM系列（1）
设HMM的状态变量（离散型），总共有N种取值，分别为：｛ $S_1,S_2,...,S_N$ ｝。观测变量（也是离散型），总共有M种取值，分别为｛ $O_1,O_2,...,O_M$ ｝。
那么，要确定一个HMM，除了要指定其对应的状态空间S和观测空间O之外，还需要三组参数，分别是：
（系列笔记）15.HMM系列（1）