(系列笔记)15.HMM系列(1)

HMM——定义和假设

概念讲解

概率模型(Probabilistic Model)

所谓概率模型,顾名思义,就是将学习任务归结于计算变量的概率分布的模型。

概率模型非常重要。在生活中,我们经常会根据一些已经观察到的现象来推测和估计未知的东西——这种需求,恰恰是概率模型的推断(Inference)行为所做的事情。

推断(Inference)的本质是:利用可观测变量,来推测未知变量的条件分布。

我们下面要讲的隐马尔可夫模型(HMM)和条件随机场(CRF)都是概率模型,之前讲过的朴素贝叶斯和逻辑回归也是概率模型。

生成模型和判别模型

概率模型可以分为生成模型(Generative Model)判别模型(Discriminative Model)

我们将可观测变量的集合命名为OO,我们感兴趣的未知变量的集合命名为 YY
生成模型学习出来的是OOYY的联合概率分布P(O,Y)P(O,Y),而判别模型学校的是条件概率分布P(YO)P(Y|O),前面提到的朴素贝叶斯模型是生成模型,而逻辑回归是判别模型。

对于某一个给定的观察值,运用条件概率P(YO)P(Y|O)很容易求出它对于不同YY的取值。那么当遇到分类问题时,直接就可以运用判别模型根据给定 OO对于哪一个YY值的条件概率最大,来判断该观测样本该属于的类别。

而生成模型也可以用来给观测样本分类,通过运用贝叶斯法则,将生成模型转化为判别模型,这样会比较麻烦。所以在分类问题上,判别模型一般更具优势,不过生成模型自有其专门的用途。本讲HMM就是一种生成模型。

概率图模型(Probabilistic Graphical Model)

概率图模型:是一种以图(Graph)为表示工具,来表达变量间相关关系的概率模型。这里说的图:一种由节点和连接节点的边组成的数据结构。

在概率图模型中,一般用节点来表示一个或者一组随机变量,而节点之间的边则表示两个(组)变量之间的概率相关关系。

边可以是有向(有方向)的,也可以是无向的。概率图模型大致可以分为:

  • 有向图模型(贝叶斯网络):用有向无环图表示变量间的依赖关系;
  • 无向图模型(马尔可夫网):用无向图表示变量间的相关关系。

HMM 就是贝叶斯网络的一种——虽然它的名字里有和“马尔可夫网”一样的“马尔可夫”。

对变量序列建模的贝叶斯网络又叫做动态贝叶斯网络。HMM 就是最简单的动态贝叶斯网络。

马尔可夫链,马尔可夫随机场和条件随机场

(系列笔记)15.HMM系列(1)

隐马尔可夫模型(Hidden Markov Model,HMM)

HMM定义

HMM 是一个关于时序的概率模型,它的变量分为两组:

  • 状态变量{s1,s2,...,sTs_1,s_2,...,s_T},其中stSs_t \in S表示t时刻的系统状态;
  • 观测变量{o1,o2,...,oTo_1,o_2,...,o_T},其中otOo_t \in O表示t时刻的观测值。

状态变量和观测变量各自都是一个时间序列,每个状态/观测值都和一个时刻相对应(见下图,图中箭头表示依赖关系):
(系列笔记)15.HMM系列(1)
一般假定状态序列是隐藏的、不能被观测到的,因此状态变量是隐变量(Hidden Variable)——这就是 HMM 中 H(Hidden)的来源。这个隐藏的、不可观测的状态序列是由一个马尔可夫链随机生成的——这是 HMM 中的第一个 M(Markov)的含义。

一条隐藏的马尔可夫链随机生成了一个不可观测的状态序列(State Sequence),然后每个状态又对应生成了一个观测结果,这些观测值按照时序排列后就成了观测序列(Observation Sequence)。这两个序列是一一对应的,每个对应的位置又对应着一个时刻。

一般而言,HMM 的状态变量取值是离散的,而观测变量的取值,则可以是离散的,也可以是连续的。

不过为了方便讨论,也因为在大多数应用中观测变量也是离散的,因此,我们下面仅讨论状态变量和观测变量都是离散的情况。

HMM基本假设

HMM 的定义建立在两个假设之上:

假设1: 假设隐藏的马尔可夫链在任意时刻 t 的状态只依赖于前一个时刻(t-1)的状态,而与其他时刻的状态和观测无关,也与时刻t无关。公式表达:
(系列笔记)15.HMM系列(1)
这一假设又叫齐次马尔科夫假设

假设2:假设任意时刻的观测只依赖于该时刻的马尔可夫链状态,与其他观测及状态无关。用公式表达为:
(系列笔记)15.HMM系列(1)
这叫做观测独立性假设。

确定HMM的两个空间和三组参数

基于上述两个假设,可知:所有变量(包括状态变量和观测变量)的联合分布为:
(系列笔记)15.HMM系列(1)
设HMM的状态变量(离散型),总共有N种取值,分别为:{S1,S2,...,SNS_1,S_2,...,S_N}。观测变量(也是离散型),总共有M种取值,分别为{O1,O2,...,OMO_1,O_2,...,O_M}。
那么,要确定一个HMM,除了要指定其对应的状态空间S和观测空间O之外,还需要三组参数,分别是:
(系列笔记)15.HMM系列(1)
(系列笔记)15.HMM系列(1)