高级爬虫Scrapy框架简介与安装(虚拟环境安装方法,pycharm安装报错解决方法) ๑乛◡乛๑ Scrapy框架使用方法
Scrapy简介
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。
Scrapy使用了Twisted异步网络框架,可以加快我们的下载速度。
也就是说,你是用scrapy后就不用自行在考虑多任务(多线程、多进程、携程)等问题了,这些问题scrapy这个框架会实现帮你处理好你所需要的。
Scrapy安装
pip install scrapy
,pycharm也可以使用可视化界面安装,上面的操作就不解释了,有Python基础的应该不会看不懂。如果你连基本的Python基础都没有,学习Scrapy对你来说会比较困难,建议先把Python基础学好。
常见安装报错
Scrapy是一个依赖众多库(zope.interface、Twisted、pyOpenSSL、pywin32…)的库,安装他时会出现各式各样的问题,大部分问题是因为缺少c++环境导致的,而需要用到c++环境的库是Twisted,也就是说大部分导致我们安装失败的原因是Twisted造成的
首先你要确保你真的拥有c++环境
如果没有可以去微软官网下载
如果你已经有c++环境却还是报了当前的错误,你可以使用下列方法去尝试解决(碰到此问题大多数可能是因为使用了虚拟环境造成的,在虚拟环境中就算安装了C++环境也经常出现无法找到的情况。)
虚拟环境报错解决方法
现在全局环境中安装scrapy,然后在将其移动到虚拟环境中,python会讲包放在Python安装目录\Lib\site-packages
下,全局环境中默认只有pip和setuptools两个包,我们可以现在全局环境中安装好scrapy再将其移动到虚拟环境中,虚拟环境的位置也同样在Python虚拟环境目录\Lib\site-packages
中
如果全局环境中安装scrapy还是报错,我们可以尝试下载离线的Twisted(http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted)进行安装,
安装好后的在Python环境\Scripts
目录下能看见一个scrapy.exe才算成功
Scrapy官方建议
尽管可以使用pip在Windows上安装Scrapy,但我们建议您安装Anaconda或Miniconda并使用conda - forge频道中的软件包 ,这样可以避免大多数安装问题。
PS:看来官方是知道pip存在的一堆问题,希望能尽快解决。
Scrapy使用
我会使用多篇文章来详细去写一个Scrapy的使用教程,有兴趣的可以关注一下我的博客,计划在半个月内完全完成