Spark部分：Spark集群的搭建与属性的配置

Spark集群的搭建

Spark集群的搭建，基于standalone的集群的搭建，先用3台搭建，第四台搭建客户端

搭建之前先拍一个快照

在主master上上传，解压，修改报名，删除以前的包，进入conf

修改conf下的env和临时文件

在conf文件下的spark-env文件下添加：

export SPARK_MASTER_IP=192.168.198.21

export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=2

export SPARK_WORKER_MEMORY=3g

在slaves文件下添加node02,node03

进入修改配置

启动：在主节点下的sbin下启动：

./start-all

启动master，同时启动worker

拷贝分发：

scp -r ./spark-1.6.0/ 192.168.198.23:$PWD

scp -r ./spark-1.6.0/ 192.168.198.22:`pwd`

改8080端口：

第一种：

Sbin:master

vi start-master.sh

将8080端口修改为9999

Node01:9999去网页端验证

第二种：

在conf下

vi spark-env.sh

添加：

export SPARK_MASTER_WEBUI_PORT=8888

第三种;

在conf下：

[[email protected] conf]# export SPARK_MASTER_WEBUI_PORT=9898

这种关机之后会自动失效

在conf下输入：export可以查看

在conf下输入[[email protected] conf]# export -n SPARK_MASTER_WEBUI_PORT可以取消端口号

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

standalone集群搭建

1.上传下载

2.在slave中配置worker节点的信息

3.在spark_env下配置mater信息

Spark_master_ip=node01

Spark_master_port=7077

Spark_worker_cores=2

Spark_worker_memory=3g

4.发送到node02和node03节点

5.在master节点../sbin下启动集群 ./start-all.sh

6.访问前端node01:8008

7.修改端口，在spark-env下修改

————————————————————————————————————————————————————————

Spark写代码的流程

设置conf
设置APPname
RDD
对Rdd实行application
用application去触发执行
Sc.stop关掉
——————————————————————————
启动resourcemanager的命令：

_____________________________________________________________________________________________________

   6.Spark Standalone集群搭建
       1).解压，上传
       2).在../conf/slaves 中配置Worker信息
       3).在../conf/spark-env.sh 中配置Master信息
           SPARK_MASTER_IP
           SPARK_MASTER_PORT
           SPARK_WORKER_CORES
           SPARK_WORKER_MEMORY
       4).发送到其他节点 scp -r /spark1.6 nodex:`pwd`
       5).在Master节点启动集群：../sbin/start-all.sh

   7.搭建客户端
       原封不动将Spark安装包复制到一台新的节点，在这个节点中../bin/spark-submit提交任务，这个节点就是客户端。

   8.SparkPI 提交任务
   9.创建RDD?
       java:
           sc.textFile(xxx,minNumPartitions)
           sc.parallelize(xx,numpartition)
           sc.parallelizePairs(seq[Tuple2<k,v>]) 将数据转换成K,V格式的RDD
       scala:
           sc.textFile(xxx,minNumPartitions)
           sc.parallelize(xx,numpartition)
           sc.makeRDD(xx,numpartition)
   10.Spark 基于Yarn 提交任务：
       在客户端 ../conf/spark-env.sh 中配置 HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

Spark部分：Spark集群的搭建与属性的配置

Spark部分：Spark集群的搭建与属性的配置

相关推荐