scrapy-redis分布式爬虫爬取某技术网站

scrapy-redis 分布式爬虫抓取伯乐在线的数据

github地址 http://github.com/nanmuyao/scrapy-redis

1,如果抓取网络数据想要最快,那么把代理ip和分布式(scrapy-redis)结合起来肯定是最快的

2,实现目标用scrapy-redis搭建抓取环境,+ bloomfilter去重,然后统一存储到一个mysql中

3,scrapy-redis环境搭建

4,开发环境一台win,一台mac 

win机器抓取截图:

scrapy-redis分布式爬虫爬取某技术网站

mac机器抓取截图:

scrapy-redis分布式爬虫爬取某技术网站

mysql数据库截图存储数据的时候把数据库中的content字段添加特别是指,win机器抓取的存储为win,mac机器抓取存储为

scrapy-redis分布式爬虫爬取某技术网站