中文分词

最常见的分词方法是基于词典匹配
– 最大长度查找(前向查找,后向查找)
后向查找准确

数据结构
– 为了提高查找效率,不要逐个匹配词典中的词
– 查找词典所占的时间可能占总的分词时间的1/3左右,为了保证切分速度,需要选择一个好的查找词典方法
Trie树常用于加速分词查找词典问题

中文分词
说明反向比较好,正向的话有歧义
中文分词

贝叶斯公式:
大学生
大学
大脑
大型活动 p(w2=学|w1=大)=p(大,学)/p(大)=2/4=0.5

J i e b a 分 词 简 介
•基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成
的有向无环图(DAG)
• 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
• 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法做预测。
我们输入的拼音是隐藏层,还有语音也是隐藏层,出来的汉子就是观察层。

中文分词
1.登录词词库加载
中文分词
2.生成DAG词图
中文分词
3.获取全局概率Route,获得词频最大切分,负数是取了log,从后往前算中文分词
4.token识别,吧中文,英文,数字分开,对于中文的用HMM记载,最后用viterbi取得分词输出。
中文分词