GitChat 宿永杰中文自然语言处理入门第02课：简单好用的中文分词利器 jieba 和 HanLP 阅读笔记

jieba 的分词算法

主要有以下三种：

基于统计词典，构造前缀词典，基于前缀词典对句子进行切分，得到所有切分可能，根据切分位置，构造一个有向无环图（DAG）；
基于DAG图，采用动态规划计算最大概率路径（最有可能的分词结果），根据最大概率路径分词；
对于新词(词库中没有的词），采用有汉字成词能力的 HMM 模型进行切分。

# -*- coding: utf-8 -*-
import sys
import io
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')#改变默认输出的标准编码
import jieba
content = "现如今，机器学习和深度学习带动人工智能飞速的发展，并在图片处理、语音识别领域取得巨大成功。"
segs_1 = jieba.cut(content, cut_all = False)
print("/".join(segs_1))

hanlp有个好大data压缩包，很不好下载

然后hanlp启动就报错

GitChat 宿永杰中文自然语言处理入门第02课：简单好用的中文分词利器 jieba 和 HanLP 阅读笔记

GitChat 宿永杰 中文自然语言处理入门 第02课：简单好用的中文分词利器 jieba 和 HanLP 阅读笔记

相关推荐

GitChat 宿永杰中文自然语言处理入门第02课：简单好用的中文分词利器 jieba 和 HanLP 阅读笔记