反爬虫的解决利器-----构建自己的代理池

为什么要构建代理池?

  • 什么是ip?

IP:互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IP Address),是分配给用户上网使用的网际协议(英语:Internet Protocol, IP)的设备的数字标签。常见的IP地址分为IPv4与IPv6两大类,但是也有其他不常用的小分类。

  • ip为什么会被封?

    大多数情况下是你请求一个网站或者网页过多过于频繁

  • 如何解决?

    1.user_agent 伪装和轮换
    2.使用代理IP和轮换
    3.设置爬取数据的时间间隔

所以很好理解为什么要构建代理池了,我们可以用代理池,让代理服务器去帮你获得你想要的数据,转发到你电脑上。

抓取西刺代理,构建自己的代理池

  1. requests请求网页返回html
  2. etree,使用xpath进行数据提取西刺代理这一页所有的ip作为构建的proxies的值
  3. 使用代理池里的代理请求访问百度,筛选能够成功访问的代理

直接上代码:
反爬虫的解决利器-----构建自己的代理池
输出结果:
反爬虫的解决利器-----构建自己的代理池