创建scrapy项目

1. 选择合适的文件夹,在pycharm中的Terminal中输入:scrapy startproject Spider,创建爬虫项目Spider。

创建scrapy项目

2. 执行命令后,得到一个名为Spider的文件夹,文件结构如下:

创建scrapy项目

3. 进入项目根目录:cd Spider

4. 创建爬虫文件agri.py:scrapy genspider agri agri.cn

创建scrapy项目

5. 执行该命令后,得到爬虫的起始url为agri.cn,爬虫文件内容如下:

创建scrapy项目

6. 爬虫项目内部文件如下:

spiders:管理多个爬虫文件的目录

items.py:用于声明数据模型,保存数据

middlewares.py:爬虫中间件,可以对请求和响应进行处理

pipelines.py:管道,作用是将每一个Iteam对象进行存储,mySql或Mongodb。

settings.py:配置文件

scrapy.cfg:部署爬虫项目

创建scrapy项目