GitChat 宿永杰 中文自然语言处理入门 第02课:简单好用的中文分词利器 jieba 和 HanLP 阅读笔记
jieba 的分词算法
主要有以下三种:
- 基于统计词典,构造前缀词典,基于前缀词典对句子进行切分,得到所有切分可能,根据切分位置,构造一个有向无环图(DAG);
- 基于DAG图,采用动态规划计算最大概率路径(最有可能的分词结果),根据最大概率路径分词;
- 对于新词(词库中没有的词),采用有汉字成词能力的 HMM 模型进行切分。
# -*- coding: utf-8 -*-
import sys
import io
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')#改变默认输出的标准编码
import jieba
content = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"
segs_1 = jieba.cut(content, cut_all = False)
print("/".join(segs_1))
hanlp有个好大data压缩包,很不好下载
然后hanlp启动就报错