Scrapy异步框架核心原理
前言
Scrapy框架实现异步爬虫,提高效率
一、Scrapy框架是什么?
Scrapy 的一种异步爬虫工具,该工具是为了解决爬取多个url地址实现异步爬取而创建的。
二、Scrapy异步框架原理
1.同步与异步的概念
2.Scrapy异步框架原理
ScrapyEngine:Scrapy引擎
Spiders:创建的爬虫文件
Scheduler:调度器,接收到spider的request请求,统一分配交给下载器,另外还能去重,整合URL队列,还能去重
Downloader:下载器,接收来自scheduler的request请求,并将返回的response对象给spider
DownloaderMiddlewares:下载器中间件
ItemPipeline:IO持久化操作
总结
这里对文章进行总结:
本文仅仅简单介绍了scrapy框架原理,后续会提供了大量项目实战内容。