您的位置: 首页 > 文章 > 爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

分类: 文章 • 2024-10-14 11:35:10

Scrapy是一个应用程序框架，用于抓取web站点和提取结构化数据，这些数据可以用于广泛的应用，如数据挖掘、信息处理。尽管Scrapy最初是为web抓取而设计的，但它也可以使用api(比如Amazon Associates的web服务)或作为一个通用的web爬虫程序来提取数据。

1.安装

在windows上安装scrapy比较复杂，首先要安装Anaconda，

Anaconda下载地址：官网下载地址 https://www.anaconda.com/download/#windows

下载完并安装Anaconda后，即可安装scrapy.

第一步：打开终端：

“WIN+R”--cmd---确定：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士打开如右图

第二步：输入指令并运行：

输入如下指令：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

按下回车键：如下图：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

选择Y，然后回车：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

关闭终端，再次打开，输入scrapy,如果出现以下内容，就证明安装成功了：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

2.Scrapy创建

1.选择创建项目的文件夹：

在终端中，输入：cd （cd后面加一个空格），然后将你要创建项目的文件夹拖入，操作如图：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

拖入后，按下回车，出现如图：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

2.创建一个“项目”（以百度为例）：

输入：爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

按下回车，如下图：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

现在创建情况如下：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

3.网页爬虫（百度为例）：

操作指令：爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

出现结果：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

4.各组件解释：

1.文件：baiduSpider.py

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

2.文件：items.py

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

3.文件：setting.py

a.爬虫所在地：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

b.遵守爬虫规则：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

c.请求最大发送量为**（默认为16）

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

d.在请求同一网站时的延迟时间：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

e.cookie能否被使用：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

f.默认请求头：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

g.爬虫优先键（0 - 1000）：值越小优先级越高，优先级越高，越先执行

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

h.下载优先键（0 - 1000）：值越小优先级越高，优先级越高，越先执行

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

i.是否进行扩展：

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

j.优先级，值越小优先级越高，越先执行

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

PS.终端操作技巧小插曲

1.获取文件结构：（关键词：tree）

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士

2.返回上级：（关键词：cd.. ）

爬虫框架之scrapy----安装、创建+项目“名词解释”+cmd操作小贴士