浅析爬虫框架scrapy

定义

scrapy框架作为一种异步处理框架,可配置和可扩展程度非常高,是在Python中使用最广泛的爬虫框架.

安装

Ubuntu安装
1、安装依赖包(ubuntu18.04可以跳过此步)
1、sudo apt-get install libffi-dev
2、sudo apt-get install libssl-dev
3、sudo apt-get install libxml2-dev
4、sudo apt-get install python3-dev
5、sudo apt-get install libxslt1-dev
6、sudo apt-get install zlib1g-dev
7、sudo pip3 install -I -U service_identity

2、安装scrapy框架
1、sudo pip3 install Scrapy

#Windows安装
cmd命令行(管理员): python -m pip install Scrapy
#Error: Microsoft Visual C++ 14.0 is required xxx(需先装Microsoft Visual C++ )

Scrapy框架五大组件

1、引擎(Engine)
:整个框架核心
2、调度器(Scheduler) :维护请求队列
3、下载器(Downloader):获取响应对象
4、爬虫文件(Spider) :数据解析提取
5、项目管道(Pipeline):数据入库处理


#下载器中间件(Downloader Middlewares) : 引擎->下载器,包装请求(随机代理等)
#蜘蛛中间件(Spider Middlewares) : 引擎->爬虫文件,可修改响应对象属性

浅析爬虫框架scrapy

scrapy爬虫工作流程

爬虫项目启动
1、由引擎向爬虫程序索要第一个要爬取的URL,交给调度器去入队列
2、调度器处理请求后出队列,通过下载器中间件交给下载器去下载
3、下载器得到响应对象后,通过蜘蛛中间件交给爬虫程序
4、爬虫程序进行数据提取:
1、数据交给管道文件去入库处理
2、对于需要继续跟进的URL,再次交给调度器入队列,依次循环