Python学习日记 Scrapy框架 1.Scrapy框架原理

一、介绍

Scrapy是一个开源和协作的框架，最初是为了页面抓取（网络抓取）所设计的，使用它可以快速、简单、可扩展的方式从网站中提取所需的数据。目前Scrapy的用途十分广泛，可用作数据挖掘、检测、自动化测试等领域，也可以应用在获取API所返回的数据或者通用的网络爬虫。

Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞（又名异步）的代码来实现并发。整体框架图如下：

scrapy框架分为七大部分核心的组件

1、引擎(EGINE)

引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。

2、调度器(SCHEDULER)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

3、下载器(DOWLOADER)

用于下载网页内容, 并将网页内容返回给EGINE，下载器是建立在twisted这个高效的异步模型上的

4、爬虫(SPIDERS)

SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求

5、项目管道(ITEM PIPLINES)

在items被提取后负责处理它们，主要包括清理、验证、持久化（比如存到数据库）等操作

6、下载器中间件(Downloader Middlewares)

下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。更多内容请看下载器中间件(Downloader Middleware) 。

7、爬虫中间件(Spider Middlewares)

Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。更多内容请看 Spider中间件(Middleware) 。

二、安装

在cmd输入pip install scrapy 或者 conda install scrapy（需要安装anaconda）

注：pip下载速度过慢，可以通过pip源转为国内镜像网站：

清华：https://pypi.tuna.tsinghua.edu.cn/simple/
阿里云：http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学：http://pypi.hustunique.com/
山东理工大学：http://pypi.sdutlinux.org/
豆瓣：http://pypi.douban.com/simple/

如果是临时性的，可以使用pip参数 -i + 国内镜像源地址 + 库名，进行安装：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ scrapy

Python学习日记 Scrapy框架 1.Scrapy框架原理

Python学习日记 Scrapy框架 1.Scrapy框架原理

一、介绍

二、安装

相关推荐