【scrapy学习】-----架构

scrapy架构以及组件在系统中的数据流

架构结构图

【scrapy学习】-----架构

ENGINE：负责控制数据流在系统中所有组件中流动，并在相关动作发生时触发事件。
SCHEDULER（调度器）：从引擎接受request并将它们入队，以便之后引擎请求它们时提供给引擎。
DOWNLOADER（下载器）：负责获取页面数据并提供给引擎，而后提供给spider。
SPIDERS（爬虫）：用于分析response并提供item（即获得的item）或额外跟进的URL的类，每个spider负责处理一个特定网站。
ITEM PIPELINE（管道）：负责处理被spider提取出来的item，典型的处理有清理、验证及持久化（例如存取到数据库中）。
Downloader middlewares（下载器中间件）：下载器中间件是在引擎及下载器之间的特定钩子（specific hook），处理Downloader传递给引擎的response，其提供了一个简便的机制，通过自定义代码来扩展scrapy功能。
Spider middlewares（spider中间件）：spider中间件是在引擎及spider之间的特定钩子（specific hook），处理spider的输入（response）和输出（items及requests），其提供了一个简便的机制，通过自定义代码来扩展scrapy功能。