创建scrapy项目
1. 选择合适的文件夹,在pycharm中的Terminal中输入:scrapy startproject Spider,创建爬虫项目Spider。
2. 执行命令后,得到一个名为Spider的文件夹,文件结构如下:
3. 进入项目根目录:cd Spider
4. 创建爬虫文件agri.py:scrapy genspider agri agri.cn
5. 执行该命令后,得到爬虫的起始url为agri.cn,爬虫文件内容如下:
6. 爬虫项目内部文件如下:
spiders:管理多个爬虫文件的目录
items.py:用于声明数据模型,保存数据
middlewares.py:爬虫中间件,可以对请求和响应进行处理
pipelines.py:管道,作用是将每一个Iteam对象进行存储,mySql或Mongodb。
settings.py:配置文件
scrapy.cfg:部署爬虫项目