scrapy爬取免费代理IP存储到数据库构建自有IP池

以抓取西刺代理网站的高匿IP并存储到mysql数据库为例

西刺网:http://www.xicidaili.com/nn/

scrapy爬取免费代理IP存储到数据库构建自有IP池

运行环境:scrapy1.0.3 python2.7.10 需要安装MySQLdb模块 
pip install mysql-python

spider的编写步骤:

1、定义抓取的网站

scrapy爬取免费代理IP存储到数据库构建自有IP池

2、定义需要抓取的链接scrapy爬取免费代理IP存储到数据库构建自有IP池

3、用xpath对网站内容进行解析scrapy爬取免费代理IP存储到数据库构建自有IP池

填写settings.py文件中的数据库用户名和密码,之后在mysql中导入proxy.sql文件,数据表名称及属性如下所示:

scrapy爬取免费代理IP存储到数据库构建自有IP池

运行scrapy:

scrapy crawl xiciscrapy爬取免费代理IP存储到数据库构建自有IP池

不到一分钟即可抓取3000多代理ip,妈妈再也不用担心ip被封啦,本文源码下载地址:

http://pan.baidu.com/s/1c29kkMG,获取密码请在Python中文社区公众号底部回复代理二字。

scrapy爬取免费代理IP存储到数据库构建自有IP池



原文发布时间为:2016-10-26

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号