Pthon Scrapy框架的安装与使用
网络爬虫,是在网上进行数据爬取的程序,使用它能够抓取特定网页的html数据,我们可以在一个py文件中引入一个又一个的模块来进行爬取,但使用框架可以更快速的来帮助我们爬取数据,提高爬取效率。Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。
今天这篇文章就来讲讲scrapy的安装与scrapy的一些简单的语法
一、scrapy安装:
这里介绍两种安装方法:
1.基于Anaconda的
如果你已经安装了Anaconda,那么可以非常简单的通过在命令提示符中输入 conda install scrapy 命令快速的安装Scrapy,
win+r 输入cmd 然后回车 打开命令提示符 输入conda install scrapy
安装完成之后怎么验证Scrapy是否安装成功呢?在命令提示符中输入 scrapy 命令如果显示结果如下图,那么就表示Scrapy安装成功
如果你没安装Anaconda,你可以选择安装Anaconda或者使用下面的方法
Anaconda下载地址:https://www.anaconda.com/download/
2.安装Twisted
Tuisted的下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
cp36:pycharm3.6,代表的是你使用的pycharm的版本
win32代表的是32位的Windows操作系统
这里要根据你的情况来选择安装,我用的是pycharm3.6版本的
下载完之后 win + r >>cmd >回车打开命令提示符
输入pip install Twisted-18.7.0-cp36-cp36m-win32.whl,当然install后面的文件名要根据你下载的文件名来写,
或者你下载完之后直接把文件放在桌面,打开命令提示符输入pip install,然后把文件拖进去
安装完成之后再输入 pip install scrapy即可安装Scrapy
安装完成之后输入 scrapy 命令验证是否安装成功,结果同Anaconda
二、Scrapy基本命令
在命令提示符中输入scrapy后会出现下列命令:
在pychar中先创建一个Scrapy框架文件用来存放后面的项目,在命令提示符中输入cd 文件路径 跳转到Scrapy框架文件下
然后输入 scrapy startproject 项目名
打开pycharm查看文件,已创建
items.py:项目的目标文件
middlewares.py:项目的中间文件
pipelines.py项目的管道文件
settings.py:项目的设置文件
scrapy.cfg:项目的配置文件
切换到命令提示符
根据提示进行先 cd baidu此时光标在第一个baidu文件夹路径下,
然后再输入一个cd baid 跳转到第二个baidu文件夹下
然后再输入一个cd spiders,跳转到spiders文件夹下
然后输入scrapy genspider baiduSpider baidu.com
如果不跳转到spiders文件中执行命令也可以,命令会将baiduSpider.py自动创建到spiders文件夹下
scrapy genspider 文件名 要爬取的目标域名,这里的域名以baidu.com为例。注意:文件名要与项目名不同
至此 Scrapy框架就创建成功了,此时再在命令提示符中输入scrpay命令可以看到多出了几条命令
check 检查,crawl 运行,edit 编译,list 列出,parse 解析
打开baiduSpider.py输入下面的代码,并将网址补全,添上www.
注意:写完之后我们可以改一下settings.py中的一些代码,settings.py文件当中的代码是自动生成的,应该都是一样的,
将22行的代码True改为False ,这个表示是否遵循爬虫协议,不改的话有些网站不让我们爬,我这里选择的是不遵守
将67到69行的代码解注释并将300改为1,改变项目的优先级,值越小,优先级越高
可以不改,我这儿改只是为了方便执行
效果如下:
settings.py改之前
settings.py文件改之后:
之后我们来执行一下,在命令提示符中输入 scrapy crawl baiduSpider 执行成功会出现指定网站的网页源码
结果为:
以上就是scrapy的安装与一些基本命令。