安装scrapye

提示：不管windows/ubantu 下载scrapy需要进入自己的虚拟环境安装scrapy，不使用虚拟环境忽略这个提示...

windows安装

1. 下载Twisted包 推荐离线安装，在线安装我这里失败报错，所以推荐离线安装，不下载这个会报一个缺少windows的一个工具的错误

一定要选择对应的python版本和windows32/64位，否则报错

下载完成后cmd输入pip install [下载的Twisted路径+Twisted文件全称]

例如我下载之后，文件在e盘下，那么cmd输入： pip install E:\Twisted-18.7.0-cp36-cp36m-win32.whl

版本参考如下

scrapy框架-解决windows安装报错/Ubantu安装与scrapy项目创建

2. 通过`pip install scrapy`安装scrapy

3. 还需要安装`pypiwin32`，pip install pypiwin32 即可使用scrapy框架，否则运行scrapy时会报错

如果是在ubuntu下，还需要安装一些第三方库：

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

在pip install scrapy

创建项目：进入虚拟环境，scrapy startproject [项目名称] 例如scrapy startproject baidudemo

创建爬虫：进入项目目录中，scrapy genspider [爬虫名称] [网址] ，

注意爬虫名称不要与项目名称一样，网址中www可以忽略

例如：scrapy genspider baidu baidu.com

1. items.py：用来存放爬虫爬取下来数据的模型。

2. middlewares.py：用来存放各种中间件的文件。

3. pipelines.py：用来将items的模型存储到本地磁盘中。

4. settings.py：本爬虫的一些配置信息（比如请求头、多久发送一次请求、ip代理池等）。

5. scrapy.cfg：项目的配置文件。

6. spiders包：以后所有的爬虫，都是存放到这个里面。