Scrapy异步框架核心原理


前言

Scrapy框架实现异步爬虫,提高效率

一、Scrapy框架是什么?

Scrapy 的一种异步爬虫工具,该工具是为了解决爬取多个url地址实现异步爬取而创建的。

二、Scrapy异步框架原理

1.同步与异步的概念

Scrapy异步框架核心原理Scrapy异步框架核心原理

2.Scrapy异步框架原理

Scrapy异步框架核心原理ScrapyEngine:Scrapy引擎
Spiders:创建的爬虫文件
Scheduler:调度器,接收到spider的request请求,统一分配交给下载器,另外还能去重,整合URL队列,还能去重
Downloader:下载器,接收来自scheduler的request请求,并将返回的response对象给spider
DownloaderMiddlewares:下载器中间件
ItemPipeline:IO持久化操作

总结

这里对文章进行总结:
本文仅仅简单介绍了scrapy框架原理,后续会提供了大量项目实战内容。