【爬虫框架-scrapy】scrapy使用

scrapy框架

scrapy-项目和爬虫的创建

1.项目的创建scrapy startproject 项目名
2.爬虫的创建scrapy genspider 爬虫名目标的主域名(进入项目文件夹后执行)
创建好的scrapy项目文件夹如下:
【爬虫框架-scrapy】scrapy使用
3.项目文件夹的介绍

scrapy-爬虫的编写

scrapy的运行过程

爬虫文件(请求的数据) → 引擎 → 调度器(对请求的数据入队) → 引擎 →下载器(开始依次下载请求的数据) → 引擎 → 爬虫文件(解析下载的数据) → pipelines(保存解析的数据)

1.在item中定义准备抓取的目标字段
【爬虫框架-scrapy】scrapy使用

2.在爬虫文件中对响应数据进行解析
【爬虫框架-scrapy】scrapy使用
3.配置pipelines管道文件对爬虫文件传过来的数据进行保存

4.执行爬虫文件
查看可执行爬虫文件scrapy list
执行爬虫文件 scrapy crawl 爬虫文件名
5.数据展示

几个注意点：