作业提交

说明

1、准备

  • 语言:Python
  • 数据:1998年1月份人民日报语料

2、数据预处理

  • 删除掉缺少标签的词以及空格、空行
  • 将数据随机分为5等均份

3、编程实现

  • 任务:词性标注
  • 方法:隐马尔维特比算法
    • 利用训练语料进行训练,获得状态概率转移矩阵、发射矩阵、初始状态矩阵。
    • 利用测试语料进行预测词语的词性

4、模型验证

  • 采用十折交叉验证方法,计算预测结果平均的准确率。

结果

作业提交