Scrapy框架入门、创建scrapy文件

简单理解一下scrapy框架，架构图如下：
scrapy engine 核心引擎
Scheduler 调度器：获取requests生成队列，传递requests至downloader
downloader 下载器：处理requests，获取页面数据。引擎和下载器直接有一个中间件。
spiders 解析器：解析responses，返回items，生成新的requests传递至scheduler。引擎和spiders直接也有一个中间件。
item pipeline 数据管道：生成items队列，处理items
Scrapy框架入门、创建scrapy文件
scrapy的基本框架基本都已经写好了，我们只需要写spiders和item pipeline就可以了，使用scrapy框架即减少了我们书写的代码量，又增加了代码的稳定性和健壮性。想要使用scrapy首先得安装，直接使用cmd pip安装即可：
Scrapy框架入门、创建scrapy文件
安装完成之后输入scrapy可以查看一些操作指令：

更改当前目录 cd path：

创建scrapy项目，可以看到目录下创建了一个新的scrapy文件，然后命令行中有提示如何：

按提示操作即可，baidu后面得baidu.com就是只会爬取这个域名下的网页：
Scrapy框架入门、创建scrapy文件

然后下面这个parse函数就是我们要解析网页的方式，就可以在parse里写自己解析网页的代码，使用cmd运行scrapy的方法。

Scrapy框架入门、创建scrapy文件

相关推荐