分类算法-朴素贝叶斯

一.数据集介绍

20 newsgroups数据集18000篇新闻文章,一共涉及到20种话题,所以称作20 newsgroups text dataset,分文两部分:训练集和测试集,通常用来做文本分类.。

在sklearn中,该模型有两种装载方式,第一种是sklearn.datasets.fetch_20newsgroups,返回一个可以被文本特征提取器

(如sklearn.feature_extraction.text.CountVectorizer)自定义参数提取特征的原始文本序列;第二种是sklearn.datasets.fetch_20newsgroups_vectorized,返回一个已提取特征的文本序列,即不需要使用特征提取器。

二.数据集的下载

sklearn.datasets.fetch_20newsgroups从互联网下载太慢,离线下载解决办法;

1.下载地址:https://ndownloader.figshare.com/files/5975967

2.复制到:C:\Users\(你的user_name)\scikit_learn_data\20news_home目录下(文件目录不存在,则自己创建)

分类算法-朴素贝叶斯

3.去python的安装目录修改配置文件:

分类算法-朴素贝叶斯

二.数据集的下载二.数据集的下载分类算法-朴素贝叶斯三.朴素贝叶斯算法代码