[NLP]发现新词

思路:

1、对新文本进行对其断句、分词、去除停用词,

2、计算文档的二阶共现、三阶共现、四阶共现频率 

3、发现两个字符串合并的新词:针对统计的二阶共现频率,计算词语的

互信息:

[NLP]发现新词

左右熵:基于对应三阶共现结果

[NLP]发现新词

将结果进行加权求和,最后排序,根据经验阈值确定新词,然后使用词典过滤后加入词典

4、发现三个字符串合并的新词,与3 同理,统计三阶共现概率

互信息计算需要 对n-gram 的互信息求和,如 细思极恐=>MI(细,思)+MI(思,极)+MI(极,恐)

左右熵计算:计算对应的四阶共现词频

参考:基于互信息和左右信息熵的短语提取识别