Scrapy框架入门、创建scrapy文件

简单理解一下scrapy框架,架构图如下:
scrapy engine 核心引擎
Scheduler 调度器:获取requests生成队列,传递requests至downloader
downloader 下载器:处理requests,获取页面数据。引擎和下载器直接有一个中间件。
spiders 解析器:解析responses,返回items,生成新的requests传递至scheduler。引擎和spiders直接也有一个中间件。
item pipeline 数据管道:生成items队列,处理items
Scrapy框架入门、创建scrapy文件
scrapy的基本框架基本都已经写好了,我们只需要写spiders和item pipeline就可以了,使用scrapy框架即减少了我们书写的代码量,又增加了代码的稳定性和健壮性。想要使用scrapy首先得安装,直接使用cmd pip安装即可:
Scrapy框架入门、创建scrapy文件
安装完成之后输入scrapy可以查看一些操作指令:
Scrapy框架入门、创建scrapy文件
更改当前目录 cd path:
Scrapy框架入门、创建scrapy文件
创建scrapy项目,可以看到目录下创建了一个新的scrapy文件,然后命令行中有提示如何:
Scrapy框架入门、创建scrapy文件
Scrapy框架入门、创建scrapy文件
按提示操作即可,baidu后面得baidu.com就是只会爬取这个域名下的网页:
Scrapy框架入门、创建scrapy文件
Scrapy框架入门、创建scrapy文件
然后下面这个parse函数就是我们要解析网页的方式,就可以在parse里写自己解析网页的代码,使用cmd运行scrapy的方法。
Scrapy框架入门、创建scrapy文件