您的位置: 首页 > 文章 > Spark单机模式安装，现基于hadoop伪分布模式运行与操作

Spark单机模式安装，现基于hadoop伪分布模式运行与操作

分类: 文章 • 2023-12-17 13:20:10

Spark单机模式安装，现基于hadoop伪分布模式运行与操作

一、导包：
1.把spark-2.0.1-bin-hadoop2.7.tgz导入software目录并解压
Spark单机模式安装，现基于hadoop伪分布模式运行与操作
2.进入spark

3.进入conf目录：

4.把文件spark-env.sh.template改名为spark-env.sh

5.进入spark-env.sh配置文件修改

6.进入bin目录
Spark单机模式安装，现基于hadoop伪分布模式运行与操作
7.进入spark客户端本机单机模式

Spark单机模式安装，现基于hadoop伪分布模式运行与操作

------------------------------------------------安装成功-------------------------------------------------------

二、Spark的操作
1.创建一个数组并查询他的最大值：
Spark单机模式安装，现基于hadoop伪分布模式运行与操作
2.转变a1为RDD,并分为2个区

3.创建一个List集合为l1，再把l1转为RDD命名为r2,并分为3个区：

4.查看r2的分区情况

5.查看r2的整体情况：

6.创建一个List的RDD数组为r3:

Spark单机模式安装，现基于hadoop伪分布模式运行与操作

三、用Spark操作文件：
1、复制一个渠道，并创建一个1.txt文件：

Spark单机模式安装，现基于hadoop伪分布模式运行与操作

2.通过spark读取，使1.txt文件变为RDD文件，并分为2个区
Spark单机模式安装，现基于hadoop伪分布模式运行与操作
3.启动Hadoop:

4.把1.txt上传到hadoop伪分布系统里：

Spark单机模式安装，现基于hadoop伪分布模式运行与操作
5.通过spark读取hadoop的1.txt文件，使1.txt文件变为RDD文件，并分为2个区

6.RDD的懒方法，懒操作：

Spark单机模式安装，现基于hadoop伪分布模式运行与操作