您的位置: 首页 > 文章 > Python爬虫学习（八）Scrapy爬虫基本流程

Python爬虫学习（八）Scrapy爬虫基本流程

分类: 文章 • 2023-02-24 00:16:17

（八）Scrapy爬虫基本流程

(1)步骤1

建立工程和Spider模板

建立工程

>scrapy startproject project_name

打开工程文件夹

>cd project_name

建立Spider模板

>scrapy genspider spider_name crawl_website

(2)步骤2

编写Spider

配置spider_name.py文件

修改对返回页面的处理

修改对新增URL爬取请求的处理

(3)步骤3

编写ITEM Pipelines

配置pipelines.py文件

定义对爬取项 (Scraped Item) 的处理类

配置ITEM_PIPELINES选项

(4)步骤4

运行爬虫程序

>scrapy crawl spider_name

(5)步骤5

配置优化：配置并发连接选项