Python爬虫学习(八)Scrapy爬虫基本流程
(八)Scrapy爬虫基本流程
(1)步骤1
-
建立工程和Spider模板
建立工程
>scrapy startproject project_name
打开工程文件夹
>cd project_name
建立Spider模板
>scrapy genspider spider_name crawl_website
(2)步骤2
-
编写Spider
配置spider_name.py文件
修改对返回页面的处理
修改对新增URL爬取请求的处理
(3)步骤3
-
编写ITEM Pipelines
配置pipelines.py文件
定义对爬取项 (Scraped Item) 的处理类
配置ITEM_PIPELINES选项
(4)步骤4
-
运行爬虫程序
>scrapy crawl spider_name
(5)步骤5
- 配置优化:配置并发连接选项