爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士
Scrapy是一个应用程序框架,用于抓取web站点和提取结构化数据,这些数据可以用于广泛的应用,如数据挖掘、信息处理。尽管Scrapy最初是为web抓取而设计的,但它也可以使用api(比如Amazon Associates的web服务)或作为一个通用的web爬虫程序来提取数据。
1.安装
在windows上安装scrapy比较复杂,首先要安装Anaconda,
Anaconda下载地址:官网下载地址 https://www.anaconda.com/download/#windows
下载完并安装Anaconda后,即可安装scrapy.
第一步:打开终端:
“WIN+R”--cmd---确定:
打开如右图
第二步:输入指令并运行:
输入如下指令:
按下回车键:如下图:
选择Y,然后回车:
关闭终端,再次打开,输入scrapy,如果出现以下内容,就证明安装成功了:
2.Scrapy创建
1.选择创建项目的文件夹:
在终端中,输入:cd (cd后面加一个空格),然后将你要创建项目的文件夹拖入,操作如图:
拖入后,按下回车,出现如图:
2.创建一个“项目”(以百度为例):
输入:
按下回车,如下图:
现在创建情况如下:
3.网页爬虫(百度为例):
操作指令:
出现结果:
4.各组件解释:
1.文件:baiduSpider.py
2.文件:items.py
3.文件:setting.py
a.爬虫所在地:
b.遵守爬虫规则:
c.请求最大发送量为**(默认为16)
d.在请求同一网站时的延迟时间:
e.cookie能否被使用:
f.默认请求头:
g.爬虫优先键(0 - 1000):值越小优先级越高,优先级越高,越先执行
h.下载优先键(0 - 1000):值越小优先级越高,优先级越高,越先执行
i.是否进行扩展:
j.优先级,值越小优先级越高,越先执行
PS.终端操作技巧小插曲
1.获取文件结构:(关键词:tree)
2.返回上级:(关键词:cd.. )