【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

注:决策智能与机器学习,深耕AI脱水干货

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

来源 |  知乎

作者 |  攸宁

编辑 | 九三山人

编者按:数据是AI实施的必要条件,没有数据的AI就是空想,而AI圈的数据很多都可以在网上免费获取,非常方便,今天分享一个CMU大佬攸宁带来的数据集资源合集。主要包括了综合性数据集、CV计算机视觉数据集和NLP自然语言处理数据集。

PS:以前我们也分享过一些数据集的资源,感兴趣的可以在公众号历史文章中搜索查看,数据集系列也会持续更新。

一、综合性机器学习数据集

1. Google数据集搜索引擎

地址:https://toolbox.google.com/datasetsearch

类似Google Scholar的一个数据集搜索引擎,唯一的缺点是从国内访问的话需要*。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP
Google Dataset Search

2. CMU - ML和AI数据

地址:https://guides.library.cmu.edu/machine-learning/home

CMU的一个ML/AI指南,不仅包括了如何找ML/AI的数据集,还包括了找ML/AI相关的书籍、文章以及文献管理、研究可重复性的相关资源。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP
CMU ML and AI LibGuides

3. UCI Machine Learning Repository

地址:https://archive.ics.uci.edu/ml/index.php

这是一个很经典的ML数据集网站,在ML的paper当中经常会遇到基于这些数据集做的实验。UCI机器学习数据集目前共收纳了将近500个数据集,并将这些数据集按数据类型(univariate、multivariate、time-series等)和机器学习任务(classification、regression、recommendation systems等)分类。其中有不少数据是已经清洗好的,可以拿来直接使用。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP
UCI Machine Learning Repository

4. Kaggle Datasets

地址:www.kaggle.com

Kaggle是Google旗下的一个机器学习社区,拥有十分丰富的各种类型的数据集,经常会举办各种ML竞赛。Kaggle的优点是每个数据集都会有相应的讨论和代码可以参考,其中不乏大神级别的思路和算法,很适合实践自己学到的ML知识。强烈推荐!

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP
Kaggle

5. 阿里云天池

地址:tianchi.aliyun.com

天池是阿里巴巴旗下的类似Kaggle的一个竞赛型平台,对于母语中文的学习者来说没有语言门槛。跟Kaggle一样,对于各个阶段的ML学习者都非常友好,专门有帮助萌新入门ML大赛的新手指南。同样十分推荐!

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

二、计算机视觉(CV)数据集

1. VisualData

地址:https://www.visualdata.io/

VisualData是一个计算机视觉数据集平台,目前还在进一步完善建设当中。它收集了最近的CV顶会paper的相关数据,并且按照主题进行了分类,大多数数据都提供了对应的paper和code,并且允许用户申请上传自己的数据集。用户体验十分友好。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP
VisualData.io

2. ImageNet

地址:image-net.org

CV领域最知名的图像数据集之一。ImageNet是根据WordNet的层次结构所组织。目前已有几千万的图片已经被手工标注,至少一百万的图像还提供了边界框。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

3. Google’s Open Images

地址1:https://ai.googleblog.com/2016/09/introducing-open-images-dataset.html

地址2:https://github.com/openimages/dataset

Google搜集的900多万个图像数据集的链接,其中相当一部分部分都已经被标注好了,目前共有超过6000种不同的图像数据。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

4. Youtube-8M

地址:https://ai.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html

Google自家的800多万的Youtube视频数据,共计500,000多个小时的视频,都已经被lable好了。目前网络上最庞大的公开的视频数据集。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

5. UMass室外人脸数据集

地址:http://vis-www.cs.umass.edu/lfw/

UMass的室外人脸数据集,目前共收集了5749个人的13233张照片。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

6. MIT室内场景集

地址:http://web.mit.edu/torralba/www/indoor.html

MIT的室内场景数据集,目前包含67个室内类别和15620个图像。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

7. VisualGenome

地址:http://visualgenome.org/

Visual Genome 数据集是Stanford 大学维护的图像及图像内容语义信息的数据集,相比于著名的 ImageNet 图像标注数据集,Visual Genome 附加了更为丰富的语义信息,用以拓展更加丰富的基于图像及语义信息的人工智能应用。目前包括108077 张图片、540 万区域内容描述(Region Descriptions)、170 万图像内容问答(Visual Question Answers)、380 万对象案例(Object Instances)、280 万属性(Attributes)、230 万关系(Relationships)。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

8. COIL100

地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

COIL100是一个物体图片数据库,包含了以360度旋转的每个角度拍摄的100个不同的物体的照片。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

三、自然语言处理(NLP)数据集

1. HotspotQA

地址:https://hotpotqa.github.io/

HotspotQA是一个由Stanford和CMU等学校的NLP研究人员所维护的一个问答型数据集。网站上面又一个leaderboard板块,列出了各个数据目前最好的算法和相应的表现。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

2. Google图书的N-grams数据集

地址:https://aws.amazon.com/cn/datasets/google-books-ngrams/

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

3. Blogger语料库

地址:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

从http://blogger.com收集的681288个博客帖子的集合,每个博客至少包含200个的常用英语单词。

4. *数据集

地址:https://code.google.com/archive/p/wiki-links/downloads

Wikipedia的全文数据,包含来自超过400万篇文章的近19亿个单词。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

5. 亚马逊评论数据集

地址:https://snap.stanford.edu/data/web-Amazon.html

包含了直到2013年3月的18年的亚马逊评论数据,共约3500万条评论。数据包括产品和用户信息、评分以及纯文本的评论内容。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

6. Yelp评论数据集

地址:https://www.yelp.com/dataset

Yelp官方提供的数据集,同时举办了基于此数据的nlp challenge。目前共计192609个商家的数据及相应的6685900条评论,其中还包含了二十多万张图片。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

7. 垃圾英文短信数据集

地址:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

共包含了5574个英文SMS垃圾短信。

8. 安然数据集

地址:https://www.cs.cmu.edu/~./enron/

来自安然高级管理人员的电子邮件数据,共涉及约150个人。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP

交流合作

请加微信号:yan_kylin_phenix注明姓名+单位+从业方向+地点,非诚勿扰。

【数据】CMU大佬分享三类优质数据集:综合、CV和NLP