干货|开放数据集

各位童鞋,有没有碰到这种情况?

看了一篇很好的文章,作者提供了理论上很好的说明,而且还有代码(大笑脸),此时正是马上码起来,测试验证的时候,然而......好像缺少了点啥——数据集(沮丧脸)。

当你有需求要结合某种算法先做个POC(俗名DEMO)时,突然发现,此时手上要是有份现成的数据那该多好!!

这里有这样一份关于机器学习、文本分析、数据挖掘等相关的数据集,也许正好解你的燃眉之急,至少可以为你省下寻找数据的时间。


1、国内互联网数据

干货|开放数据集

链接: https://pan.baidu.com/s/1pLNx5rX 密码: b9px

包括:新浪微博消息数据集,Web信息抽取数据集,关键字搜索的历史日志文件,国内知名电商平台全网商品信息及评论,新浪微博个人微博数据,新浪微博情感200万条,中文词语搭配库,新浪微博3.5亿用户关系数据(样例),某南方城市出租车GPS位置数据,带有转发和情感标签的微博数据... ... 

用途:机器学习相关算法,NLP基础功能(如情感分析,实体抽取等等),知识构建等等



2、用于分类的数据

干货|开放数据集

链接: https://pan.baidu.com/s/1qXMzr5q 密码: a2jr



3、维基百科数据

干货|开放数据集

链接: https://pan.baidu.com/s/1jIF0lYA 密码: iges



4、京东自营销售数据(2015)

干货|开放数据集

链接: https://pan.baidu.com/s/1slkdR5N 密码: syn9



5、微软数据

干货|开放数据集

链接: https://pan.baidu.com/s/1mhBchnU 密码: ukca



6、百度词条数据

链接: https://pan.baidu.com/s/1pKTSPo3 密码: y8jv



7、1998~2009年经济科普数据

干货|开放数据集


链接: https://pan.baidu.com/s/1qXQ2Zwg 密码: w2yw



(注:在此公众号回复“数据集20171211”可获得一键链接。)


更多机器学习、NLP相关的书籍、视频等资料,都在这里!

长按识别二维码关注

干货|开放数据集干货|开放数据集