【数据】CMU大佬分享三类优质数据集：综合、CV和NLP

关注：决策智能与机器学习，深耕AI脱水干货

来源 | 知乎

作者 | 攸宁

编辑 | 九三山人

编者按：数据是AI实施的必要条件，没有数据的AI就是空想，而AI圈的数据很多都可以在网上免费获取，非常方便，今天分享一个CMU大佬攸宁带来的数据集资源合集。主要包括了综合性数据集、CV计算机视觉数据集和NLP自然语言处理数据集。

PS：以前我们也分享过一些数据集的资源，感兴趣的可以在公众号历史文章中搜索查看，数据集系列也会持续更新。

一、综合性机器学习数据集

1. Google数据集搜索引擎

地址：https://toolbox.google.com/datasetsearch

类似Google Scholar的一个数据集搜索引擎，唯一的缺点是从国内访问的话需要*。

Google Dataset Search

2. CMU - ML和AI数据

地址：https://guides.library.cmu.edu/machine-learning/home

CMU的一个ML/AI指南，不仅包括了如何找ML/AI的数据集，还包括了找ML/AI相关的书籍、文章以及文献管理、研究可重复性的相关资源。

CMU ML and AI LibGuides

3. UCI Machine Learning Repository

地址：https://archive.ics.uci.edu/ml/index.php

这是一个很经典的ML数据集网站，在ML的paper当中经常会遇到基于这些数据集做的实验。UCI机器学习数据集目前共收纳了将近500个数据集，并将这些数据集按数据类型（univariate、multivariate、time-series等）和机器学习任务（classification、regression、recommendation systems等）分类。其中有不少数据是已经清洗好的，可以拿来直接使用。

UCI Machine Learning Repository

4. Kaggle Datasets

地址：www.kaggle.com

Kaggle是Google旗下的一个机器学习社区，拥有十分丰富的各种类型的数据集，经常会举办各种ML竞赛。Kaggle的优点是每个数据集都会有相应的讨论和代码可以参考，其中不乏大神级别的思路和算法，很适合实践自己学到的ML知识。强烈推荐！

Kaggle

5. 阿里云天池

地址：tianchi.aliyun.com

天池是阿里巴巴旗下的类似Kaggle的一个竞赛型平台，对于母语中文的学习者来说没有语言门槛。跟Kaggle一样，对于各个阶段的ML学习者都非常友好，专门有帮助萌新入门ML大赛的新手指南。同样十分推荐！

二、计算机视觉（CV）数据集

1. VisualData

地址：https://www.visualdata.io/

VisualData是一个计算机视觉数据集平台，目前还在进一步完善建设当中。它收集了最近的CV顶会paper的相关数据，并且按照主题进行了分类，大多数数据都提供了对应的paper和code，并且允许用户申请上传自己的数据集。用户体验十分友好。

VisualData.io

2. ImageNet

地址：image-net.org

CV领域最知名的图像数据集之一。ImageNet是根据WordNet的层次结构所组织。目前已有几千万的图片已经被手工标注，至少一百万的图像还提供了边界框。

3. Google’s Open Images

地址1：https://ai.googleblog.com/2016/09/introducing-open-images-dataset.html

地址2：https://github.com/openimages/dataset

Google搜集的900多万个图像数据集的链接，其中相当一部分部分都已经被标注好了，目前共有超过6000种不同的图像数据。

4. Youtube-8M

地址：https://ai.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html

Google自家的800多万的Youtube视频数据，共计500,000多个小时的视频，都已经被lable好了。目前网络上最庞大的公开的视频数据集。

5. UMass室外人脸数据集

地址：http://vis-www.cs.umass.edu/lfw/

UMass的室外人脸数据集，目前共收集了5749个人的13233张照片。

6. MIT室内场景集

地址：http://web.mit.edu/torralba/www/indoor.html

MIT的室内场景数据集，目前包含67个室内类别和15620个图像。

7. VisualGenome

地址：http://visualgenome.org/

Visual Genome 数据集是Stanford 大学维护的图像及图像内容语义信息的数据集，相比于著名的 ImageNet 图像标注数据集，Visual Genome 附加了更为丰富的语义信息，用以拓展更加丰富的基于图像及语义信息的人工智能应用。目前包括108077 张图片、540 万区域内容描述（Region Descriptions）、170 万图像内容问答（Visual Question Answers）、380 万对象案例（Object Instances）、280 万属性（Attributes）、230 万关系（Relationships）。