【数据】CMU大佬分享三类优质数据集:综合、CV和NLP
关注:决策智能与机器学习,深耕AI脱水干货
来源 | 知乎
作者 | 攸宁
编辑 | 九三山人
编者按:数据是AI实施的必要条件,没有数据的AI就是空想,而AI圈的数据很多都可以在网上免费获取,非常方便,今天分享一个CMU大佬攸宁带来的数据集资源合集。主要包括了综合性数据集、CV计算机视觉数据集和NLP自然语言处理数据集。
PS:以前我们也分享过一些数据集的资源,感兴趣的可以在公众号历史文章中搜索查看,数据集系列也会持续更新。
一、综合性机器学习数据集
1. Google数据集搜索引擎
地址:https://toolbox.google.com/datasetsearch
类似Google Scholar的一个数据集搜索引擎,唯一的缺点是从国内访问的话需要*。
2. CMU - ML和AI数据
地址:https://guides.library.cmu.edu/machine-learning/home
CMU的一个ML/AI指南,不仅包括了如何找ML/AI的数据集,还包括了找ML/AI相关的书籍、文章以及文献管理、研究可重复性的相关资源。
3. UCI Machine Learning Repository
地址:https://archive.ics.uci.edu/ml/index.php
这是一个很经典的ML数据集网站,在ML的paper当中经常会遇到基于这些数据集做的实验。UCI机器学习数据集目前共收纳了将近500个数据集,并将这些数据集按数据类型(univariate、multivariate、time-series等)和机器学习任务(classification、regression、recommendation systems等)分类。其中有不少数据是已经清洗好的,可以拿来直接使用。
4. Kaggle Datasets
地址:www.kaggle.com
Kaggle是Google旗下的一个机器学习社区,拥有十分丰富的各种类型的数据集,经常会举办各种ML竞赛。Kaggle的优点是每个数据集都会有相应的讨论和代码可以参考,其中不乏大神级别的思路和算法,很适合实践自己学到的ML知识。强烈推荐!
5. 阿里云天池
地址:tianchi.aliyun.com
天池是阿里巴巴旗下的类似Kaggle的一个竞赛型平台,对于母语中文的学习者来说没有语言门槛。跟Kaggle一样,对于各个阶段的ML学习者都非常友好,专门有帮助萌新入门ML大赛的新手指南。同样十分推荐!
二、计算机视觉(CV)数据集
1. VisualData
地址:https://www.visualdata.io/
VisualData是一个计算机视觉数据集平台,目前还在进一步完善建设当中。它收集了最近的CV顶会paper的相关数据,并且按照主题进行了分类,大多数数据都提供了对应的paper和code,并且允许用户申请上传自己的数据集。用户体验十分友好。
2. ImageNet
地址:image-net.org
CV领域最知名的图像数据集之一。ImageNet是根据WordNet的层次结构所组织。目前已有几千万的图片已经被手工标注,至少一百万的图像还提供了边界框。
3. Google’s Open Images
地址1:https://ai.googleblog.com/2016/09/introducing-open-images-dataset.html
地址2:https://github.com/openimages/dataset
Google搜集的900多万个图像数据集的链接,其中相当一部分部分都已经被标注好了,目前共有超过6000种不同的图像数据。
4. Youtube-8M
地址:https://ai.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html
Google自家的800多万的Youtube视频数据,共计500,000多个小时的视频,都已经被lable好了。目前网络上最庞大的公开的视频数据集。
5. UMass室外人脸数据集
地址:http://vis-www.cs.umass.edu/lfw/
UMass的室外人脸数据集,目前共收集了5749个人的13233张照片。
6. MIT室内场景集
地址:http://web.mit.edu/torralba/www/indoor.html
MIT的室内场景数据集,目前包含67个室内类别和15620个图像。
7. VisualGenome
地址:http://visualgenome.org/
Visual Genome 数据集是Stanford 大学维护的图像及图像内容语义信息的数据集,相比于著名的 ImageNet 图像标注数据集,Visual Genome 附加了更为丰富的语义信息,用以拓展更加丰富的基于图像及语义信息的人工智能应用。目前包括108077 张图片、540 万区域内容描述(Region Descriptions)、170 万图像内容问答(Visual Question Answers)、380 万对象案例(Object Instances)、280 万属性(Attributes)、230 万关系(Relationships)。
8. COIL100
地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
COIL100是一个物体图片数据库,包含了以360度旋转的每个角度拍摄的100个不同的物体的照片。
三、自然语言处理(NLP)数据集
1. HotspotQA
地址:https://hotpotqa.github.io/
HotspotQA是一个由Stanford和CMU等学校的NLP研究人员所维护的一个问答型数据集。网站上面又一个leaderboard板块,列出了各个数据目前最好的算法和相应的表现。
2. Google图书的N-grams数据集
地址:https://aws.amazon.com/cn/datasets/google-books-ngrams/
3. Blogger语料库
地址:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
从http://blogger.com收集的681288个博客帖子的集合,每个博客至少包含200个的常用英语单词。
4. *数据集
地址:https://code.google.com/archive/p/wiki-links/downloads
Wikipedia的全文数据,包含来自超过400万篇文章的近19亿个单词。
5. 亚马逊评论数据集
地址:https://snap.stanford.edu/data/web-Amazon.html
包含了直到2013年3月的18年的亚马逊评论数据,共约3500万条评论。数据包括产品和用户信息、评分以及纯文本的评论内容。
6. Yelp评论数据集
地址:https://www.yelp.com/dataset
Yelp官方提供的数据集,同时举办了基于此数据的nlp challenge。目前共计192609个商家的数据及相应的6685900条评论,其中还包含了二十多万张图片。
7. 垃圾英文短信数据集
地址:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
共包含了5574个英文SMS垃圾短信。
8. 安然数据集
地址:https://www.cs.cmu.edu/~./enron/
来自安然高级管理人员的电子邮件数据,共涉及约150个人。
交流合作
请加微信号:yan_kylin_phenix,注明姓名+单位+从业方向+地点,非诚勿扰。