一. THUCNews中文数据集

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、**、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

1.1 数据下载

官网链接 http://thuctc.thunlp.org/#获取链接，提供个人信息后可下载

1.2 数据探索

数据集中包含四个文本文件：cnews.test.txt，cnews.train.txt，cnews.val.txt，cnews.vocab.txt。
cnews.train.txt为训练数据集，cnews.test.txt为测试数据集，cnews.val.txt为验证数据集，cnews.vocab.txt是所有数据集中出现的汉字、字母与标点符号汇集成的词典，其中是词汇表中添加的辅助Token，用来补齐句子长度。

二. IMDB英文数据集

数据集包含电影评论及其关联的二进制标签，旨在作为情感分类的基准。核心数据集包含50,000个评论，均匀分为25k训练集和25k测试集。
标签的整体分布是平衡的（25k pos和25k neg），还包括另外50,000个未标记文档，用于无监督学习。

2.1 数据下载

http://ai.stanford.edu/~amaas/data/sentiment/进入后直接点击Large Movie Review Dataset v1.0开始下载即可。

2.2 数据探索

下载后会得到一个aclImdb_v1.tar.gz压缩包，解压之后可以看到，文件夹中包含train训练数据集的文件夹和test测试数据集文件夹。
在训练数据集中主要包括两个已标记情感类别的影评数据集pos和neg和一个未标记的用于无监督学习的数据集unsup，还有一个imdb的词汇表字典，包含了训练集中出现的所有单词。
测试集中主要包括两个已标记情感类别的影评数据集pos和neg。

三. 常用评估方式

3.1 混淆矩阵

Datawhale | 自然语言处理（2）
True Positive(真正, TP)：将正类预测为正类数
True Negative(真负 , TN)：将负类预测为负类数
False Positive(假正, FP)：将负类预测为正类数 → 误报 (Type I error)
False Negative(假负 , FN)：将正类预测为负类数 → 漏报 (Type II error)

准确率(accuracy) :预测准确的在所有样本中的比例
精确率（precision）:

对于给定的测试数据集，分类器正确分类的样本数与正样本数之比。（简单点：给出的结果有多少是正确的）；精确率是针对预测结果而言的，它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)
召回率（recall）：（正确的结果有多少被给出了）

召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。
P-R曲线
P-R曲线刻画准确率和召回率之间的关系，准确率和召回率是一对矛盾的度量，一般来说，准确率高时，召回率往往偏低，召回率高时，准确率往往偏低。
在很多情况下，我们可以根据学习器的预测结果对样例进行排序，排在前面的是学习器认为最可能是正例的样本，排在后面的是学习器认为最不可能是正例的样本，按此顺序逐个把样本作为正例进行预测，则每次可计算当前的准确率和召回率，以准确率为纵轴，以召回率为横轴，可以画出下面的P-R曲线。

ROC曲线:
在ROC曲线中，以FPR为x轴，TPR为y轴。FPR指实际负样本中被错误预测为正样本的概率。TPR指实际正样本中被预测正确的概率。如下图：
AUC曲线
AUC为ROC曲线下的面积，AUC值越大的分类器，正确率越高
AUC的物理意义为，随机给定一个正样本，一个负样本，使用分类器进行预测，设判断正样本为正的概率为P1，判断负样本为正的概率为P2，P1>P2的概率就是AUC值。