百万裁判文书爬取(持续更新中):Error:11004、状态码200但是返回None——自己坑自己的步骤

一、背景:
裁判文书比较全的网站大体上有中国裁判文书网、无讼网、聚法案例网、法律家
中国裁判文书网:http://wenshu.court.gov.cn/
无讼网:https://www.itslaw.com/home
聚法案例:https://www.jufaanli.com/
法律家:http://www.fae.cn/
在这些网站中,中国裁判文书网的反爬措施过于高端(反正我是搞不定)、无讼网与聚法案例有登陆限制(没有那么多账号),只有法律家是静态网页,比较好爬取。于是,爬取的目标网站就是法律家。
法律家裁判文书的爬取过程中,由于具体网页即裁判文书正文页访问存在访问次数限制,而非具体网页即裁判文书目录页的访问限制更低一些。
百万裁判文书爬取(持续更新中):Error:11004、状态码200但是返回None——自己坑自己的步骤
百万裁判文书爬取(持续更新中):Error:11004、状态码200但是返回None——自己坑自己的步骤

二、思路:
此处的爬取思路就是利用这两者的限制程度的不同分阶段进行,防止互相错误的干扰,先爬取url,然后爬取具体正文。(后来发现其实不用这么费劲,因为url的格式相同,完全可以自行构造一个一个的试)
百万裁判文书爬取(持续更新中):Error:11004、状态码200但是返回None——自己坑自己的步骤
在第一步就打转了半个月(主要是由于一些小问题、和比较穷的一个一个注册代理然后试用)
这里面的许多小问题在之前的文章中有所体现,尝试过许多方法,主要是:error10060,许多方法都是所谓的connection:close ;或者retry,但是其实不是的,而是代理的问题,关不关闭对这个爬虫没有什么问题。最后都是代理解决;
多线程或者多进程问题:开一两个线程速度太慢,爬了一天一夜才20000多的url,总共100万url就会爬死去,于是开多线程,一次开了40个线程,想着4个小时结束战斗;但是在20000次访问下没有问题的网站现在出现了问题,不是代理失效而是直接维护网站,对此我毫无办法。
代理问题:只想白嫖用免费的代理池,一个一个找代理池(github上的基本都找过了,有的我运行不起来特麻烦),找到比较好的崔庆才大神的代理池和jhao的代理池,但是代理错误太多,可用率太低;
然后一个一个代理软件注册试用,结果手机号不够用,于是试图使用免费手机号,但是无法注册。
百万裁判文书爬取(持续更新中):Error:11004、状态码200但是返回None——自己坑自己的步骤
最后,发现其实url可以构造出来,怪我没有细看!!!!!
百万裁判文书爬取(持续更新中):Error:11004、状态码200但是返回None——自己坑自己的步骤
仔细看url,发现其中
http://www.fae.cn//cp/detail…html都是一样的,只有数字不一样,因而可以对数字进行构造,对不对没有关系,一个一个试过去,保障可以爬全。

第二步:进行具体正文的提取,此时不止出现前面的代理问题:Error:10060,还时长出现Error:11004,和返回None

简直一脸懵逼,他妈的又全是英文,还不仅python错误,连window的各种错误都出来了!!!!!!!!!!!!!!!!!!!!

百万裁判文书爬取(持续更新中):Error:11004、状态码200但是返回None——自己坑自己的步骤
百万裁判文书爬取(持续更新中):Error:11004、状态码200但是返回None——自己坑自己的步骤

各种查找都没有找到解决方法!!!

各种尝试中发现当我一个一个输入url时,成功了!!!!
但是进行遍历提取时却是状态码200 和返回None!!!

难道要一个一个的自行传递url,一遍一遍的运行,绝对不可能!!!

真香!!一个一个的传递url,最终到第3个,实在受不了,于是开始再次检查。
多方查找,既然状态码200正常,那么就只能是后面的内容有问题了,结果没有发现。

没有办法的我就只能向前找,结果错误竟然在前面,200的状态码,错误竟然在前面!!!

奇怪的问题来了:
百万裁判文书爬取(持续更新中):Error:11004、状态码200但是返回None——自己坑自己的步骤
百万裁判文书爬取(持续更新中):Error:11004、状态码200但是返回None——自己坑自己的步骤
两个url进行判断为不相等,一开始还以为是数据结构不一致,结果加了str()没有用,加上‘’也没有用。
最后查看txt文档时终于想起来,原来是在写入txt时为了好看,进行了换行,因而提取的url中也会存在换行符!!!

继续爬取中!!!!!!!!!!!
后续会再次更新!!!!!!!!!
希望大家不要爬法律家,等我爬完先,万一他换成动态网页我就凉了!!!!!!!!!!!