《机器学习》学习笔记(二十七)—结构化学习:序列标注

序列标注

序列标注的的输入是一个序列,他的输出也是一个序列。一个典型的例子就是词性标注(pos tagging)。在日常中用的词有的是名词,有的是动词,但是动词中还有专有名词,非专有名词等。所以对于词性的标注还是有必要的。
《机器学习》学习笔记(二十七)—结构化学习:序列标注
在上面这个例子中有两个 saw ,其中第一个 saw 是动词,而第二个 saw 是名次,所以需要理解整个句子的含义才能做出正确的词性标注。

隐马尔科夫模型(HMM)

《机器学习》学习笔记(二十七)—结构化学习:序列标注
首先在第一步,基于语法我们产生一个词性序列;第二步我们基于一个字典,产生一个基于词性语句的实际语句。

具体来讲,HMM的第一步如下图所示
《机器学习》学习笔记(二十七)—结构化学习:序列标注
在这里生成的每一个句子都是从 start 开始,然后沿着他的路径以某一个概率到达下一个点,知道到达最后的 end。这样我们就产生了第一个,词性语句,比如说得到的了如下的词性语句,同时我们可以计算产生这种词性语句的概率。

根据产生的词性语句,可以有字典产生对应单词构成语句
《机器学习》学习笔记(二十七)—结构化学习:序列标注
如上图为产生的句子以及产生这个句子的概率。

所以对于HMM来讲,词性标注的过程可以表示为如下的形式
《机器学习》学习笔记(二十七)—结构化学习:序列标注
词性与单词同时出现的概率如上图所示,可以利用条件概率进行计算,其中产生 p(y)p(y) 的概率的计算过程可以看作是一系列的条件概率相乘;而 p(xy)p(x|y) 的概率的计算过程如图所示,计算完这两个部分就可以计算上述的 p(x,y)p(x,y)

表述为
《机器学习》学习笔记(二十七)—结构化学习:序列标注
其中的 p(y)p(y) 可以表示为如上的计算形式,首先是从 start 转移到 y1y_1 的概率,然后 yy 之间的概率的转移形式,最后是转移到 end 的概率。而 p(xy)p(x|y) 的概率也可以通过上面的式子进行计算。