pycharm爬虫的scrapy框架的创建和项目目录结构
创建项目和爬虫(cmd命令提示符下)
1.创建项目:scrapy startproject (爬虫的名字)
完成创建项目
2.创建爬虫:scrapy genspider (爬虫名字) (爬虫的域名).
注意爬虫名字不能和项目名称一致,否则会报错
正确创建后的提示符:
项目目录结构
1.items.py:用来存放爬虫爬取下来数据的模型
2.Middlewares.py:用来存放各种中间件的文件
3.Pipeline.py:用来将items的模型存储到本地磁盘中
4.settings.py:设置爬虫的一些配置信息(比如请求头和ip代理池)
5.scrapy.cfg:项目的配置文件
6.spider包:存放所有的爬虫