分类算法-朴素贝叶斯
一.数据集介绍
20 newsgroups
数据集18000篇新闻文章,一共涉及到20种话题,所以称作20 newsgroups text dataset
,分文两部分:训练集和测试集,通常用来做文本分类.。
在sklearn中,该模型有两种装载方式,第一种是sklearn.datasets.fetch_20newsgroups,返回一个可以被文本特征提取器
(如sklearn.feature_extraction.text.CountVectorizer)自定义参数提取特征的原始文本序列;第二种是sklearn.datasets.fetch_20newsgroups_vectorized,返回一个已提取特征的文本序列,即不需要使用特征提取器。
二.数据集的下载
sklearn.datasets.fetch_20newsgroups从互联网下载太慢,离线下载解决办法;
1.下载地址:https://ndownloader.figshare.com/files/5975967
2.复制到:C:\Users\(你的user_name)\scikit_learn_data\20news_home目录下(文件目录不存在,则自己创建)
3.去python的安装目录修改配置文件:
二.数据集的下载二.数据集的下载
三.朴素贝叶斯算法代码