序列标注 | (9) 中文分词评价指标(续)

上一篇博客我们介绍了中文分词的一些评价指标,包括Precision、Recall、F1-score、OOVRecall和IVRecall。本篇博客我们将继续介绍一些其他的评价指标:柔性评测方案。

由于中文分词还没有形成一个公认的分词标准,服务于不同目的的分词系统会对分词单位有不同的要求,进而导致同一文本可能被不同的人划分为几种不同的分词结果。为了能够对各类分词系统进行公正的评价,可以使用一种柔性的评测方案[1],而不是使用闭集测试方法的准确率,召回率等完全匹配的评测指标。具体的,我们首先将分词工具预测的分词结果划分为四种情况:

  • 一致:预测的词语和标准集词语完全一致,该情况反映了分词工具和标准集定义的分词粒度一致性;
  • 拆分:标准集词语等于多个连续的预测词语,如:标准集词语“鲁班”会被工具1拆分为姓和名“鲁/班”。拆分情况通常发生于标准集的分词粒度大于分词工具定义的粒度,并不是严格意义的分词错误;
  • 合并:预测词语等于多个连续的标准集词语,如:工具2预测的词语“放大招”在标准集中是由连续的两个词语“放”和“大招”构成。合并情况通常发生于标准集的分词粒度小于分词工具定义的粒度,它也不是严格意义的分词错误;
  • 冲突:预测词语和标准集词语存在边界冲突。如:工具3会将标准集中“射手”分开,并将“手”和“鲁”组合为一个标准集中不存在的词语“手鲁”,破坏了词语“射手”和“鲁班”的结构,生成错误的分词片段“射” “手鲁”和“班”。冲突情况是一种严格意义的切分错误,冲突比例反映了分词工具的错误率,是衡量一个分词工具好坏的最主要指标,也是评测分析的重点指标。

序列标注 | (9) 中文分词评价指标(续)
将各个分词工具的分词结果和标准集进行对比,并统计标准集中词语的被预测情况,得到上述四种情况的占比。评测过程以自动评测为主,主要分析各分词工具的冲突占比以及一致性占比,冲突比例表示分词工具的错误率,一致性比例表示分词工具和标准集定义的分词粒度一致性。此外,还可以采用人工评测为辅,人工评测主要是对“拆分”“合并”结果进行分析,人工评测部分拆分合并结果,会发现拆分合并的情况主要是由于粒度定义不同导致,而非“硬错误”,所以这两种情况的占比并不是关注的重点。

[1] 杨尔弘, 方莹, 刘冬明等. 汉语自动分词和词性标注评测[J]. 中文信息学报, 2006, 20(1): 46-51.