《机器学习》学习笔记（二十七）—结构化学习：序列标注

序列标注

序列标注的的输入是一个序列，他的输出也是一个序列。一个典型的例子就是词性标注（pos tagging）。在日常中用的词有的是名词，有的是动词，但是动词中还有专有名词，非专有名词等。所以对于词性的标注还是有必要的。
《机器学习》学习笔记（二十七）—结构化学习：序列标注
在上面这个例子中有两个 saw ，其中第一个 saw 是动词，而第二个 saw 是名次，所以需要理解整个句子的含义才能做出正确的词性标注。

隐马尔科夫模型（HMM）

《机器学习》学习笔记（二十七）—结构化学习：序列标注
首先在第一步，基于语法我们产生一个词性序列；第二步我们基于一个字典，产生一个基于词性语句的实际语句。

具体来讲，HMM的第一步如下图所示
《机器学习》学习笔记（二十七）—结构化学习：序列标注
在这里生成的每一个句子都是从 start 开始，然后沿着他的路径以某一个概率到达下一个点，知道到达最后的 end。这样我们就产生了第一个，词性语句，比如说得到的了如下的词性语句，同时我们可以计算产生这种词性语句的概率。

根据产生的词性语句，可以有字典产生对应单词构成语句
《机器学习》学习笔记（二十七）—结构化学习：序列标注
如上图为产生的句子以及产生这个句子的概率。

所以对于HMM来讲，词性标注的过程可以表示为如下的形式
《机器学习》学习笔记（二十七）—结构化学习：序列标注
词性与单词同时出现的概率如上图所示，可以利用条件概率进行计算，其中产生 $p(y)$ 的概率的计算过程可以看作是一系列的条件概率相乘；而 $p(x|y)$ 的概率的计算过程如图所示，计算完这两个部分就可以计算上述的 $p(x,y)$ 。

表述为
《机器学习》学习笔记（二十七）—结构化学习：序列标注
其中的 $p(y)$ 可以表示为如上的计算形式，首先是从 start 转移到 $y_1$ 的概率，然后 $y$ 之间的概率的转移形式，最后是转移到 end 的概率。而 $p(x|y)$ 的概率也可以通过上面的式子进行计算。

《机器学习》学习笔记（二十七）—结构化学习：序列标注

序列标注

隐马尔科夫模型（HMM）

相关推荐