scrapy爬取免费代理IP存储到数据库构建自有IP池

以抓取西刺代理网站的高匿IP并存储到mysql数据库为例

运行环境：scrapy1.0.3 python2.7.10 需要安装MySQLdb模块

pip install mysql-python

spider的编写步骤：

1、定义抓取的网站

scrapy爬取免费代理IP存储到数据库构建自有IP池

2、定义需要抓取的链接 scrapy爬取免费代理IP存储到数据库构建自有IP池

3、用xpath对网站内容进行解析 scrapy爬取免费代理IP存储到数据库构建自有IP池

填写settings.py文件中的数据库用户名和密码，之后在mysql中导入proxy.sql文件，数据表名称及属性如下所示：

scrapy爬取免费代理IP存储到数据库构建自有IP池

运行scrapy：

scrapy crawl xici scrapy爬取免费代理IP存储到数据库构建自有IP池

不到一分钟即可抓取3000多代理ip，妈妈再也不用担心ip被封啦，本文源码下载地址：

http://pan.baidu.com/s/1c29kkMG，获取密码请在Python中文社区公众号底部回复代理二字。

scrapy爬取免费代理IP存储到数据库构建自有IP池

原文发布时间为：2016-10-26

本文来自云栖社区合作伙伴“Python中文社区”，了解相关信息可以关注“Python中文社区”微信公众号