Datawhale | 自然语言处理(2)

一. THUCNews中文数据集

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、**、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

1.1 数据下载

官网链接 http://thuctc.thunlp.org/#获取链接, 提供个人信息后可下载

1.2 数据探索

数据集中包含四个文本文件:cnews.test.txt,cnews.train.txt,cnews.val.txt,cnews.vocab.txt。
cnews.train.txt为训练数据集,cnews.test.txt为测试数据集,cnews.val.txt为验证数据集,cnews.vocab.txt是所有数据集中出现的汉字、字母与标点符号汇集成的词典,其中是词汇表中添加的辅助Token,用来补齐句子长度。

二. IMDB英文数据集

数据集包含电影评论及其关联的二进制标签,旨在作为情感分类的基准。核心数据集包含50,000个评论,均匀分为25k训练集和25k测试集。
标签的整体分布是平衡的(25k pos和25k neg),还包括另外50,000个未标记文档,用于无监督学习。

2.1 数据下载

http://ai.stanford.edu/~amaas/data/sentiment/进入后直接点击Large Movie Review Dataset v1.0开始下载即可。

2.2 数据探索

下载后会得到一个aclImdb_v1.tar.gz压缩包,解压之后可以看到,文件夹中包含train训练数据集的文件夹和test测试数据集文件夹。
在训练数据集中主要包括两个已标记情感类别的影评数据集pos和neg和一个未标记的用于无监督学习的数据集unsup,还有一个imdb的词汇表字典,包含了训练集中出现的所有单词。
测试集中主要包括两个已标记情感类别的影评数据集pos和neg。

三. 常用评估方式

3.1 混淆矩阵

Datawhale | 自然语言处理(2)
True Positive(真正, TP):将正类预测为正类数
True Negative(真负 , TN):将负类预测为负类数
False Positive(假正, FP):将负类预测为正类数 → 误报 (Type I error)
False Negative(假负 , FN):将正类预测为负类数 → 漏报 (Type II error)

  • 准确率(accuracy) :预测准确的在所有样本中的比例
    Datawhale | 自然语言处理(2)
  • 精确率(precision):
    Datawhale | 自然语言处理(2)
    对于给定的测试数据集,分类器正确分类的样本数与正样本数之比。(简单点:给出的结果有多少是正确的);精确率是针对预测结果而言的,它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)
  • 召回率(recall):(正确的结果有多少被给出了)
    Datawhale | 自然语言处理(2)
    召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
  • P-R曲线
    P-R曲线刻画准确率和召回率之间的关系,准确率和召回率是一对矛盾的度量,一般来说,准确率高时,召回率往往偏低,召回率高时,准确率往往偏低。
    在很多情况下,我们可以根据学习器的预测结果对样例进行排序,排在前面的是学习器认为最可能是正例的样本,排在后面的是学习器认为最不可能是正例的样本,按此顺序逐个把样本作为正例进行预测,则每次可计算当前的准确率和召回率,以准确率为纵轴,以召回率为横轴,可以画出下面的P-R曲线。
    Datawhale | 自然语言处理(2)
    ROC曲线:
    在ROC曲线中,以FPR为x轴,TPR为y轴。FPR指实际负样本中被错误预测为正样本的概率。TPR指实际正样本中被预测正确的概率。如下图:
    Datawhale | 自然语言处理(2)
  • AUC曲线
    AUC为ROC曲线下的面积,AUC值越大的分类器,正确率越高
    AUC的物理意义为,随机给定一个正样本,一个负样本,使用分类器进行预测,设判断正样本为正的概率为P1,判断负样本为正的概率为P2,P1>P2的概率就是AUC值。