爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

Scrapy是一个应用程序框架,用于抓取web站点和提取结构化数据,这些数据可以用于广泛的应用,如数据挖掘、信息处理。尽管Scrapy最初是为web抓取而设计的,但它也可以使用api(比如Amazon Associates的web服务)或作为一个通用的web爬虫程序来提取数据。

 

1.安装

在windows上安装scrapy比较复杂,首先要安装Anaconda,

Anaconda下载地址:官网下载地址 https://www.anaconda.com/download/#windows

下载完并安装Anaconda后,即可安装scrapy.

第一步:打开终端:

“WIN+R”--cmd---确定:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士    打开如右图       爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

第二步:输入指令并运行:

输入如下指令:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

按下回车键:如下图:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

选择Y,然后回车:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

关闭终端,再次打开,输入scrapy,如果出现以下内容,就证明安装成功了:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

 

2.Scrapy创建

1.选择创建项目的文件夹:

在终端中,输入:cd (cd后面加一个空格),然后将你要创建项目的文件夹拖入,操作如图:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

拖入后,按下回车,出现如图:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

2.创建一个“项目”(以百度为例):

输入:爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

按下回车,如下图:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

现在创建情况如下:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

 

3.网页爬虫(百度为例):

操作指令:爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

出现结果:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

 

4.各组件解释:

1.文件:baiduSpider.py

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

2.文件:items.py

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

3.文件:setting.py

a.爬虫所在地:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

b.遵守爬虫规则:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

c.请求最大发送量为**(默认为16)

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

d.在请求同一网站时的延迟时间:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

e.cookie能否被使用:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

f.默认请求头:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

g.爬虫优先键(0 - 1000):值越小优先级越高,优先级越高,越先执行

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

h.下载优先键(0 - 1000):值越小优先级越高,优先级越高,越先执行

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

i.是否进行扩展:

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

j.优先级,值越小优先级越高,越先执行

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

 

PS.终端操作技巧小插曲

1.获取文件结构:(关键词:tree)

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

2.返回上级:(关键词:cd.. )

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士