【机器学习】隐马尔可夫(一)----模型定义

咸鱼了一个多月，黑色五月过得异常难受，找实习好烦，心态一直调整不好。
然后。。突然就想起了隐马尔可夫，我每天的心理状态是别人无法观测到的，每一天的状态组在一起就是一个状态序列，而我的行为活动是其他人可见的，每一天的行为组合在一起就是观测序列，当知道我月初的各种状态的概率分布，也知道了我这个人每种状态转移的概率分布和在某种状态下做出某种行为活动的概率分布时，是不是就能通过我这一个月每天的行为活动组成的序列来判断我每天的状态呢。emmm，隐马尔可夫带你成为一个能看懂人心的“神棍”。

基本假设

首先为了计算简单，要提出两点假设：
第一、齐次马尔可夫性假设
假设隐藏的马尔可夫链在任意时刻 $t$ 的状态只依赖于其前一时刻 $t - 1$ 的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关。
即 $P (i_{t} | i_{t - 1}, o_{t - 1}, . . ., i_{1}, o_{1}) = P (i_{t} | i_{t - 1})$ $t = 1, 2, . . ., T$
第二、观测独立性假设
假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测及状态无关。
即 $P (o_{t} | i_{T}, o_{T}, i_{T - 1}, o_{T - 1}, . . ., i_{t}, o_{t}, . . ., i_{1}, o_{1}) = P (o_{t} | i_{t})$

这两个假设一个是状态转移的关系，另一个是状态生成观测的关系。

模型参数(A,B,π)

隐马尔可夫模型是一个关于时序的概率模型，它由初始状态概率向量 $π$ ，状态转移概率矩阵 $A$ 和观测概率分布 $B$ 来确定。模型用 $λ$ 表示， $λ = (A, B, π)$ 可以用来预测给定的观测序列对应的状态序列。

状态
用 $i_{t}$ 表示 $t$ 时刻的状态， $i_{1}$ 是第一天的状态(也就是初始状态)。
用 $q$ 表示所有可能的状态，集合表示为 $Q = {q_{1}, q_{2}, . . ., q_{N}}$ ， $N$ 即有 $N$ 种状态。
$P (i_{t} = q_{j})$ 表示第 $t$ 天( $t$ 时刻)的状态是 $q_{j}$ 的概率， $j$ 取 $1, 2, . . ., N$
$比如花丸的所有可能状态包括 {烦躁，消极，平静，积极}$
观测
用 $o_{t}$ 表示 $t$ 时刻的观测(行为活动)。
用 $v$ 表示所有可能的观测(行为活动)，集合表示为 $V = {v_{1}, v_{2}, . . ., v_{M}}$ ， $M$ 即有 $M$ 种观测。
$P (o_{t} = v_{s} | i_{t} = q_{j})$ 表示在第 $t$ 天( $t$ 时刻)状态是 $q_{j}$ 的条件下，第 $t$ 天( $t$ 时刻)观测到的活动是 $v_{s}$ 的概率， $s$ 取 $1, 2, . . ., M$
$比如花丸的所有可能活动包括 {玩游戏，写博客，看书，看电影，无所事事}$

状态转移概率矩阵 $A$ ：

$A = [a_{j k}]_{N \times N}$ ，即一个 $N \times N$ 的矩阵， $N$ 即有 $N$ 种状态。
其中 $a_{j k} = P (i_{t + 1} = q_{k} | i_{t} = q_{j})$ ，即在第 $t$ 天( $t$ 时刻)的状态是 $q_{j}$ 的条件下在第 $t + 1$ 天( $t + 1$ 时刻)转移到状态 $q_{k}$ 的概率。
如下图的状态转移
【机器学习】隐马尔可夫(一)----模型定义

A = [\begin{matrix} a_{11} & a_{12} & a_{13} & a_{14} \\ a_{21} & a_{22} & a_{23} & a_{24} \\ a_{31} & a_{32} & a_{33} & a_{34} \\ a_{41} & a_{42} & a_{43} & a_{44} \end{matrix}] = [\begin{matrix} 0 & 0.9 & 0.1 & 0 \\ 0.6 & 0 & 0.4 & 0 \\ 0 & 0.5 & 0 & 0.5 \\ 0 & 0 & 0.7 & 0.3 \end{matrix}]

我们可以发现每一行之和为1，这是从某一状态转移为其他所有可能状态的概率之和。

观测概率矩阵 $B$ ：

$B = [b_{j} (s)]_{N \times M}$ ，即一个 $N \times M$ 的矩阵， $N$ 即有 $N$ 种状态， $M$ 即有 $M$ 种观测。
其中 $b_{j} (s) = P (o_{t} = v_{s} | i_{t} = q_{j})$ ，即在第 $t$ 天( $t$ 时刻)处于状态 $q_{j}$ 的条件下生成观测 $v_{s}$ 的概率。
如下图状态生成观测，每种状态生成所有观测的概率之和为1(用同色的线表示在同一行)
【机器学习】隐马尔可夫(一)----模型定义

A = [\begin{matrix} b_{1} (1) & b_{1} (2) & b_{1} (3) & b_{1} (4) & b_{1} (5) \\ b_{2} (1) & b_{2} (2) & b_{2} (3) & b_{2} (4) & b_{2} (5) \\ b_{3} (1) & b_{3} (2) & b_{3} (3) & b_{3} (4) & b_{3} (5) \\ b_{4} (1) & b_{4} (2) & b_{4} (3) & b_{4} (4) & b_{4} (5) \end{matrix}] = [\begin{matrix} 0.3 & 0.4 & 0.2 & 0.06 & 0.04 \\ 0.6 & 0.15 & 0.2 & 0.02 & 0.03 \\ 0.3 & 0.1 & 0.1 & 0.25 & 0.25 \\ 0.05 & 0.02 & 0.08 & 0.4 & 0.45 \end{matrix}]

初始状态概率向量 $π$ ：

$π = (π_{1}, π_{2}, . . ., π_{i})$ ， $π_{i} = P (i_{1} = q_{j})$ ， $i_{1}$ 表示初始状态。
$初始状态分布： π_{1} = P (i_{1} = 烦躁) = 0.6 ， π_{2} = P (i_{1} = 消极) = 0.25$
$π_{3} = P (i_{1} = 平静) = 0.1 ， π_{4} = P (i_{1} = 积极) = 0.05$
$因此 π = (0.6, 0.25, 0.1, 0.05)$

$有了隐马尔可夫模型 λ = (π, A, B) 我们也可以生成一个观测序列。$
$输入是隐马尔可夫模型 λ = (π, A, B) 和观测序列的长度 T ，输出是$
$观测序列 O = (o_{1}, o_{2}, . . ., o_{T})$

三个基本问题

①概率计算问题

给定模型 $λ = (π, A, B)$ 和观测序列 $O = (o_{1}, o_{2}, . . ., o_{T})$ ，计算在模型 $λ$ 条件下观测序列 $O$ 出现的概率 $P (O | λ)$ 。
$前向 - 反向算法$

②学习问题(训练问题)

已知观测序列 $O = (o_{1}, o_{2}, . . ., o_{T})$ ，去估计模型 $λ = (π, A, B)$ 的参数，使得在该模型条件下，观测序列概率 $P (O | λ)$ 最大。
$鲍姆 - 韦尔奇算法 (E M 过程)$

③预测问题(解码问题)

已知模型 $λ = (π, A, B)$ 和观测序列 $O = (o_{1}, o_{2}, . . ., o_{T})$ ，求给定观测序列条件下概率 $P (I | O)$ 最大的状态序列 $I = (i_{1}, i_{2}, . . ., i_{T})$ 。
$维特比算法$