入门自然语言处理数据集
作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai
在开始深入的学习自然语言处理任务时,我们需要准备一些数据集用来训练自己的算法。
在选择数据集上面,你最好使用可以快速下载的小的数据集,这种数据不用花太多的时间来训练模型。此外,你也可以使用一些标准的数据集或者被广泛使用的数据集,这样你可以把你的测试结果和别人的结果进行对比,以此来看是否取得进展。
在这篇文章中,我们将准备一套标准数据集可以用于你大部分的自然语言处理任务,在你学习深度学习的过程中肯定能用的到。
概要介绍
这篇文章被分为 7 个部分,具体如下:
- 文本分类
- 语言模型
- 图像语义
- 机器翻译
- 问答系统
- 语音识别
- 文本摘要
我试图在这里提供一个在学术界受欢迎的数据集,因为这样你就可以和别人的实验结果进行对比。
文中几乎所有的数据集都可以免费下载。
如果你认为你最喜欢的数据集没有被列出来,或者你有更好的数据集,请在下面的评论中让我知道。
让我们开始吧。
1. 文本分类
文本分类是指文件标签化,比如电子邮件分类和情感分类。
以下是一些好的初学者文本分类数据集。
- 路透社新闻稿主题分类(Reuters-21578),这是路透社在 1982 年整理的一系列按照新闻主题归类的数据,另外你也可以参考 RCV1,RCV2 和 TRC2
- IMDB 电影评论情感分类(斯坦福)。这是一个从 imdb.com 网站收集的电影评论的数据集,评论数据分为正向和负向。
- 新闻评论情感分类数据集(康奈尔)。这是一个从 imdb.com 网站收集的电影评论数据集,评论数据分为积极地和消极地。
更多的数据集,你可以查看这个博客。
2. 语言模型
语言模型就是利用一个统计模型或者别的模型,来预测一句话的下一个单词。它在语音识别和机器翻译等任务中非常有用。
下面是一些比较入门的语言模型的数据集:
- 古腾堡项目(Gutenberg),是一个大量免费书籍的集合,可以用纯文本格式做各种语言的检索。
还有一些更加正式的语料库,如下:
- 布朗大学现代美式英语标准语料库,里面包含一大堆英文单词。
- Google 十亿词库。
3. 图像语义
图像语义是对给定的图像生成文本描述的任务。
以下是一些比较好的初学者数据集:
- COCO。收集超过 12 万张图片与描述。
- Flickr 8K。从 flickr.com 网站拍摄的 8000 张图片与描述。
- Flickr 30K。从 flickr.com 网站拍摄的 3 万张图片与描述。
更多信息请看:
4. 机器翻译
机器翻译是将文本从一种语言翻译成另一种语言的任务。
以下是一些比较初级的机器翻译数据集。
- 加拿大第 36 届议会的国会议员。这个数据集是成对的英文和法文。
- 欧洲议会诉讼语料库 1996 - 2011。里面包含整套的欧洲语言数据。
这里还有大量的用于机器翻译挑战的标准数据集,如下:
5. 问答系统
问答系统是一个比较有意思的任务,给定一个句子或者文本,然后生成或者从数据库中挑选一个句子(文本)作为输出。
以下是一些比较好的初学问答数据集。
- 斯坦福问答数据集(SQuAD)。维基百科的问答数据。
- Deepmind 问答数据库。关于新闻文章的每日问答数据。
- 亚马逊问答数据。有关亚马逊产品的问答数据。
更多的有关数据,请参考这个文章:
6. 语音识别
语音识别是将口语的音频信息转换为文本数据。
以下是一些比较适合初学的语音识别数据集。
- TIMIT 声音连续语音语料库。这个数据集不是免费的,但是被广泛的使用。这是美国英语口语以及相关转录。
- VoxForge。这是一个语音识别的开源数据库。
- LibriSpeech ASR语料库。这是一个从 LibriVox 中收集的大量有声读物。
7. 文本摘要
文本摘要是为更大的文本数据创建一个简短并且高度概括的描述任务。
以下是一些比较好的文本摘要数据集。
- 法律案件报告数据集。这个数据集收集了 4000 个法律案件及其总结。
- TIPSTER 会议总结语料库。这个语料库收集了近 200 份文件及其摘要。
- 英语新闻文本的 AQUAINT 语料库。这个语料库不免费,但是被广泛的使用。这是一个新闻文章摘要语料库。
更多信息可以查看下面的文章:
深入阅读
如果你希望更加的深入分析数据,那么下面的提供的数据集列表是非常有用的。
- Wikipedia 的研究数据集。
- 数据集:计算语言学家和自然语言处理人员主要使用什么语料库?。
- 斯坦福统计自然语言处理语料库。
- 按照字母检索的 NLP 数据集。
- NLTK 语料库。
- DL4J 上面的开源数据。