多线程爬取中国土地市场网土地交易数据,最新2020/08/21

多线程爬取中国土地市场网土地交易数据
可自动通过验证码(识别准确率不太高,所以设置了6次的重试机制,如果没事识别出来可自动重新识别,一般2-3次。),爬取网页过程中断可自动重试并继续爬取(因为增加了爬取中断处理,导致代码很长)
6月份弄好的,2020.08.21测试了,依然行得通
欢迎讨论

实现方法
尝试很多方法之后最终使用了如下方案:
爬取数据: selenium+Chrome(此方法速度不快,也吃cpu,但是对于此网站来说稳定)
存储数据: Mysql (对于数据量动辄几十万的项目来说,强烈推荐)
管理数据: navicat (管理Mysql,只需用到简单的sql语句就能方便的管理数据库)
如下图所示:
多线程爬取中国土地市场网土地交易数据,最新2020/08/21
其他: 生产者-消费者模式的多线程,稍微提高了点爬取速度
备注

  1. 倒数第二行代码后可以添加其他想要爬取的城市,第一个城市爬取完成之后会自动爬取接下来的城市
  2. 每单个城市一次最多爬取6000条数据,如果超过6000条,可以分时间段爬取
  3. 本方法速度不会太快,请求速度太快会被网页后台禁止访问。如果想增加速度可以用代理ip,最好是购买稳定的独享ip,有钱电脑多或者电脑好的话多买几个,10个代理的话速度提高10倍,有钱真好!。
    多线程爬取中国土地市场网土地交易数据,最新2020/08/21
    爬取过程
    多线程爬取中国土地市场网土地交易数据,最新2020/08/21

来吧,展示!
多线程爬取中国土地市场网土地交易数据,最新2020/08/21