(系列笔记)15.HMM系列(1)
HMM——定义和假设
概念讲解
概率模型(Probabilistic Model)
所谓概率模型,顾名思义,就是将学习任务归结于计算变量的概率分布的模型。
概率模型非常重要。在生活中,我们经常会根据一些已经观察到的现象来推测和估计未知的东西——这种需求,恰恰是概率模型的推断(Inference)行为所做的事情。
推断(Inference)的本质是:利用可观测变量,来推测未知变量的条件分布。
我们下面要讲的隐马尔可夫模型(HMM)和条件随机场(CRF)都是概率模型,之前讲过的朴素贝叶斯和逻辑回归也是概率模型。
生成模型和判别模型
概率模型可以分为生成模型(Generative Model)和判别模型(Discriminative Model)
我们将可观测变量的集合命名为,我们感兴趣的未知变量的集合命名为 。
生成模型学习出来的是和的联合概率分布,而判别模型学校的是条件概率分布,前面提到的朴素贝叶斯模型是生成模型,而逻辑回归是判别模型。
对于某一个给定的观察值,运用条件概率很容易求出它对于不同的取值。那么当遇到分类问题时,直接就可以运用判别模型根据给定 对于哪一个值的条件概率最大,来判断该观测样本该属于的类别。
而生成模型也可以用来给观测样本分类,通过运用贝叶斯法则,将生成模型转化为判别模型,这样会比较麻烦。所以在分类问题上,判别模型一般更具优势,不过生成模型自有其专门的用途。本讲HMM就是一种生成模型。
概率图模型(Probabilistic Graphical Model)
概率图模型:是一种以图(Graph)为表示工具,来表达变量间相关关系的概率模型。这里说的图:一种由节点和连接节点的边组成的数据结构。
在概率图模型中,一般用节点来表示一个或者一组随机变量,而节点之间的边则表示两个(组)变量之间的概率相关关系。
边可以是有向(有方向)的,也可以是无向的。概率图模型大致可以分为:
- 有向图模型(贝叶斯网络):用有向无环图表示变量间的依赖关系;
- 无向图模型(马尔可夫网):用无向图表示变量间的相关关系。
HMM 就是贝叶斯网络的一种——虽然它的名字里有和“马尔可夫网”一样的“马尔可夫”。
对变量序列建模的贝叶斯网络又叫做动态贝叶斯网络。HMM 就是最简单的动态贝叶斯网络。
马尔可夫链,马尔可夫随机场和条件随机场
隐马尔可夫模型(Hidden Markov Model,HMM)
HMM定义
HMM 是一个关于时序的概率模型,它的变量分为两组:
- 状态变量{},其中表示t时刻的系统状态;
- 观测变量{},其中表示t时刻的观测值。
状态变量和观测变量各自都是一个时间序列,每个状态/观测值都和一个时刻相对应(见下图,图中箭头表示依赖关系):
一般假定状态序列是隐藏的、不能被观测到的,因此状态变量是隐变量(Hidden Variable)——这就是 HMM 中 H(Hidden)的来源。这个隐藏的、不可观测的状态序列是由一个马尔可夫链随机生成的——这是 HMM 中的第一个 M(Markov)的含义。
一条隐藏的马尔可夫链随机生成了一个不可观测的状态序列(State Sequence),然后每个状态又对应生成了一个观测结果,这些观测值按照时序排列后就成了观测序列(Observation Sequence)。这两个序列是一一对应的,每个对应的位置又对应着一个时刻。
一般而言,HMM 的状态变量取值是离散的,而观测变量的取值,则可以是离散的,也可以是连续的。
不过为了方便讨论,也因为在大多数应用中观测变量也是离散的,因此,我们下面仅讨论状态变量和观测变量都是离散的情况。
HMM基本假设
HMM 的定义建立在两个假设之上:
假设1: 假设隐藏的马尔可夫链在任意时刻 t 的状态只依赖于前一个时刻(t-1)的状态,而与其他时刻的状态和观测无关,也与时刻t无关。公式表达:
这一假设又叫齐次马尔科夫假设。
假设2:假设任意时刻的观测只依赖于该时刻的马尔可夫链状态,与其他观测及状态无关。用公式表达为:
这叫做观测独立性假设。
确定HMM的两个空间和三组参数
基于上述两个假设,可知:所有变量(包括状态变量和观测变量)的联合分布为:
设HMM的状态变量(离散型),总共有N种取值,分别为:{}。观测变量(也是离散型),总共有M种取值,分别为{}。
那么,要确定一个HMM,除了要指定其对应的状态空间S和观测空间O之外,还需要三组参数,分别是: