干货|开放数据集
各位童鞋,有没有碰到这种情况?
看了一篇很好的文章,作者提供了理论上很好的说明,而且还有代码(大笑脸),此时正是马上码起来,测试验证的时候,然而......好像缺少了点啥——数据集(沮丧脸)。
当你有需求要结合某种算法先做个POC(俗名DEMO)时,突然发现,此时手上要是有份现成的数据那该多好!!
这里有这样一份关于机器学习、文本分析、数据挖掘等相关的数据集,也许正好解你的燃眉之急,至少可以为你省下寻找数据的时间。
1、国内互联网数据
链接: https://pan.baidu.com/s/1pLNx5rX 密码: b9px
包括:新浪微博消息数据集,Web信息抽取数据集,关键字搜索的历史日志文件,国内知名电商平台全网商品信息及评论,新浪微博个人微博数据,新浪微博情感200万条,中文词语搭配库,新浪微博3.5亿用户关系数据(样例),某南方城市出租车GPS位置数据,带有转发和情感标签的微博数据... ...
用途:机器学习相关算法,NLP基础功能(如情感分析,实体抽取等等),知识构建等等
2、用于分类的数据
链接: https://pan.baidu.com/s/1qXMzr5q 密码: a2jr
3、维基百科数据
链接: https://pan.baidu.com/s/1jIF0lYA 密码: iges
4、京东自营销售数据(2015)
链接: https://pan.baidu.com/s/1slkdR5N 密码: syn9
5、微软数据
链接: https://pan.baidu.com/s/1mhBchnU 密码: ukca
6、百度词条数据
链接: https://pan.baidu.com/s/1pKTSPo3 密码: y8jv
7、1998~2009年经济科普数据
链接: https://pan.baidu.com/s/1qXQ2Zwg 密码: w2yw
(注:在此公众号回复“数据集20171211”可获得一键链接。)
更多机器学习、NLP相关的书籍、视频等资料,都在这里!
长按识别二维码关注