scrapy-redis分布式爬虫爬取某技术网站

scrapy-redis 分布式爬虫抓取伯乐在线的数据

1，如果抓取网络数据想要最快，那么把代理ip和分布式（scrapy-redis）结合起来肯定是最快的

2，实现目标用scrapy-redis搭建抓取环境，+ bloomfilter去重，然后统一存储到一个mysql中

4，开发环境一台win，一台mac

win机器抓取截图：

scrapy-redis分布式爬虫爬取某技术网站

mac机器抓取截图：

scrapy-redis分布式爬虫爬取某技术网站

mysql数据库截图存储数据的时候把数据库中的content字段添加特别是指，win机器抓取的存储为win，mac机器抓取存储为

scrapy-redis分布式爬虫爬取某技术网站