结巴(jieba)中文分词的.NET版本

学习路径: https://github.com/anderscui/jieba.NET/

特点

  • 支持三种分词模式:
    • 精确模式,试图将句子最精确地切开,适合文本分析
    • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义。具体来说,分词过程不会借助于词频查找最大概率路径,亦不会使用HMM;
    • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
  • 支持繁体分词
  • 支持添加自定义词典和自定义词
  • MIT 授权协议

算法

  • 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
  • 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
  • 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装和配置

环境:Win10+VS2019

1.打开VS2019,创建项目

结巴(jieba)中文分词的.NET版本

结巴(jieba)中文分词的.NET版本

结巴(jieba)中文分词的.NET版本

结巴(jieba)中文分词的.NET版本

2.安装结巴(jieba)分词

当前版本基于.NET Framework 4.7.2,可以手动引用项目,也可以通过NuGet添加引用

2.1 NuGet添加引用

结巴(jieba)中文分词的.NET版本

或者右击项目

结巴(jieba)中文分词的.NET版本

在出现的页面中输入 jieba,选择jieba.NET后,即可点击【安装】

结巴(jieba)中文分词的.NET版本

结巴(jieba)中文分词的.NET版本

结巴(jieba)中文分词的.NET版本

2.2 手动引用项目,Install-Package jieba.NET