词性标注(pos tagging)

1 贝叶斯公式+维特比算法

准备工作

1 词性矩阵A
NW; N词性的大小,W词表的大小
根据数据统计得到每个词的词性出现的频率,再按照单词做归一化
还可以做一下数据平滑。
2 pai 每个词性出现在第一个位置的概率
3 状态转移矩阵:出现词性1的下一个为词性2B的概率
N
N
词性标注(pos tagging)
词性标注(pos tagging)
维特比算法
每个单词处,保留概率最大的K个路径
T*N,T输入的长度

先算第一个单词的情况。如下的W1
再依次根据上一个的情况计算下一个的概率
每次保存第i个单词,第j个tag最大的可能。以及从上一个哪个来的

那么最后一列的时候,就能得到最大的值
倒推就能得到我们遍历的顺序

词性标注(pos tagging)
词性标注(pos tagging)
词性标注(pos tagging)