反爬虫的解决利器-----构建自己的代理池
为什么要构建代理池?
- 什么是ip?
IP:互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IP Address),是分配给用户上网使用的网际协议(英语:Internet Protocol, IP)的设备的数字标签。常见的IP地址分为IPv4与IPv6两大类,但是也有其他不常用的小分类。
-
ip为什么会被封?
大多数情况下是你请求一个网站或者网页过多过于频繁
-
如何解决?
1.user_agent 伪装和轮换
2.使用代理IP和轮换
3.设置爬取数据的时间间隔
所以很好理解为什么要构建代理池了,我们可以用代理池,让代理服务器去帮你获得你想要的数据,转发到你电脑上。
抓取西刺代理,构建自己的代理池
- requests请求网页返回html
- etree,使用xpath进行数据提取西刺代理这一页所有的ip作为构建的proxies的值
- 使用代理池里的代理请求访问百度,筛选能够成功访问的代理
直接上代码:
输出结果: