scrapy框架-解决windows安装报错/Ubantu安装与scrapy项目创建
安装scrapye
提示:不管windows/ubantu 下载scrapy需要进入自己的虚拟环境安装scrapy,不使用虚拟环境忽略这个提示...
windows安装
1. 下载Twisted包 推荐离线安装,在线安装我这里失败报错,所以推荐离线安装,不下载这个会报一个缺少windows的一个工具的错误
网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
一定要选择对应的python版本和windows32/64位,否则报错
下载完成后cmd输入pip install [下载的Twisted路径+Twisted文件全称]
例如我下载之后,文件在e盘下,那么cmd输入: pip install E:\Twisted-18.7.0-cp36-cp36m-win32.whl
版本参考如下
2. 通过`pip install scrapy`安装scrapy
3. 还需要安装`pypiwin32`,pip install pypiwin32 即可使用scrapy框架,否则运行scrapy时会报错
Ubantu安装
如果是在ubuntu下,还需要安装一些第三方库:
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
在pip install scrapy
创建项目与爬虫
创建项目:进入虚拟环境,scrapy startproject [项目名称] 例如scrapy startproject baidudemo
创建爬虫:进入项目目录中,scrapy genspider [爬虫名称] [网址] ,
注意爬虫名称不要与项目名称一样,网址中www可以忽略
例如:scrapy genspider baidu baidu.com
项目目录结构说明
1. items.py:用来存放爬虫爬取下来数据的模型。
2. middlewares.py:用来存放各种中间件的文件。
3. pipelines.py:用来将items的模型存储到本地磁盘中。
4. settings.py:本爬虫的一些配置信息(比如请求头、多久发送一次请求、ip代理池等)。
5. scrapy.cfg:项目的配置文件。
6. spiders包:以后所有的爬虫,都是存放到这个里面。