【每日一个GitHub项目】jieba “结巴”Python中文分词
jieba
地址:https://github.com/fxsjy/jieba
作者:Sun Junyi
jieba
Python中文分词是我在做期末作业的时候,偶然找到的。jieba
和词云
组合使用可以对文章进行分析,并取出高频词形成词云。
下图是我的期末作业,对最近大火的《隐秘的角落》原著小说《坏小孩》的分词加词云处理。jieba
有四种分词模式
- 精确模式,会把句子最精确地切开,适合文本分析
- 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义
- 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
- paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本,请升级jieba,pip install jieba --upgrade
jieba
特点
- 支持繁体分词
- 支持自定义词典
- MIT授权协议
有多种语言实现