Spark单机模式安装,现基于hadoop伪分布模式运行与操作

Spark单机模式安装,现基于hadoop伪分布模式运行与操作

一、导包:
1.把spark-2.0.1-bin-hadoop2.7.tgz导入software目录并解压
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
2.进入spark
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
3.进入conf目录:
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
4.把文件spark-env.sh.template改名为spark-env.sh
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
5.进入spark-env.sh配置文件修改
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
Spark单机模式安装,现基于hadoop伪分布模式运行与操作

6.进入bin目录
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
7.进入spark客户端本机单机模式

Spark单机模式安装,现基于hadoop伪分布模式运行与操作
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
------------------------------------------------安装成功-------------------------------------------------------

二、Spark的操作
1.创建一个数组并查询他的最大值:
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
2.转变a1为RDD,并分为2个区
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
3.创建一个List集合为l1,再把l1转为RDD命名为r2,并分为3个区:
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
4.查看r2的分区情况
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
5.查看r2的整体情况:
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
6.创建一个List的RDD数组为r3:

Spark单机模式安装,现基于hadoop伪分布模式运行与操作

三、用Spark操作文件:
1、复制一个渠道,并创建一个1.txt文件:

Spark单机模式安装,现基于hadoop伪分布模式运行与操作Spark单机模式安装,现基于hadoop伪分布模式运行与操作

2.通过spark读取,使1.txt文件变为RDD文件,并分为2个区
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
3.启动Hadoop:
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
4.把1.txt上传到hadoop伪分布系统里:

Spark单机模式安装,现基于hadoop伪分布模式运行与操作Spark单机模式安装,现基于hadoop伪分布模式运行与操作
5.通过spark读取hadoop的1.txt文件,使1.txt文件变为RDD文件,并分为2个区
Spark单机模式安装,现基于hadoop伪分布模式运行与操作
6.RDD的懒方法,懒操作:

Spark单机模式安装,现基于hadoop伪分布模式运行与操作
Spark单机模式安装,现基于hadoop伪分布模式运行与操作