8月随笔[Python-jieba库的使用]
jieba库的使用
jieba库是一个优秀的中文分词第三方库,可以使用pip install下载
jieba分词模式
- 精确模式:把文本精确的切分开,不存在冗余单词
- 全模式:把文本中所有可能的词语都扫描出来,有冗余
- 搜索引擎模式:在精确模式的基础上,对长词再次切分
jieba 常用函数
函数 | 描述 |
---|---|
jieba.lcut(s) | 精确模式,返回一个列表类型的分词结果 |
jieba.lcut(s,cut_all=True) | 全模式 |
jieba.lcut_for_search(s) | 搜索引擎模式,返回一个列表类型的分词结果,存在冗余 |
jieba.add_word(w) | 向分词词典添加新词w |
jieba&wordcloud
如果您还未看过我的另一篇随笔:Python-Word-Cloud,不妨移步8月随笔[Python-WordCloud]
那边有对wordcloud库的使用介绍,并且也联动使用了jieba的精确模式,词库为三毛的短篇《一个男孩子的爱情》,图云效果如图:
除了和wordcloud联动使用进行数据可视化以外,通过分词得到的列表也可以用来统计词频,不妨自己想想代码该如何写。
话题
8月,我还将持续更新有关Python,PS(不知道在****适不适合)等方面的随笔。您可以在随笔中了解一些使用方式以及好用的插件,或是实用的库的实用方法等。
下篇将介绍Pycharm的一些插件,让编程体验提升数倍!