Spark部分:Spark集群的搭建与属性的配置

Spark集群的搭建

Spark集群的搭建,基于standalone的集群的搭建,先用3台搭建,第四台搭建客户端

搭建之前先拍一个快照

在主master上上传,解压,修改报名,删除以前的包,进入conf

修改conf下的env和临时文件

在conf文件下的spark-env文件下添加:

export SPARK_MASTER_IP=192.168.198.21

export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=2

export SPARK_WORKER_MEMORY=3g

 

在slaves文件下添加node02,node03

进入修改配置

启动:在主节点下的sbin下启动:

./start-all

启动master,同时启动worker

拷贝分发:

scp -r ./spark-1.6.0/ 192.168.198.23:$PWD

scp -r ./spark-1.6.0/ 192.168.198.22:`pwd`

 

改8080端口:

第一种:

Sbin:master

vi start-master.sh

将8080端口修改为9999

Node01:9999去网页端验证

第二种:

在conf下

vi spark-env.sh

添加:

export SPARK_MASTER_WEBUI_PORT=8888

第三种;

在conf下:

[[email protected] conf]# export SPARK_MASTER_WEBUI_PORT=9898

这种关机之后会自动失效

在conf下输入:export可以查看

在conf下输入[[email protected] conf]# export -n SPARK_MASTER_WEBUI_PORT可以取消端口号

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

standalone集群搭建

1.上传下载

2.在slave中配置worker节点的信息

3.在spark_env下配置mater信息

Spark_master_ip=node01

Spark_master_port=7077

Spark_worker_cores=2

Spark_worker_memory=3g

4.发送到node02和node03节点

5.在master节点../sbin下启动集群 ./start-all.sh

6.访问前端node01:8008

7.修改端口,在spark-env下修改

————————————————————————————————————————————————————————

Spark写代码的流程

  1. 设置conf
  2. 设置APPname
  3. RDD
  4. 对Rdd实行application
  5. 用application去触发执行
  6. Sc.stop关掉
  7. ——————————————————————————
  8. 启动resourcemanager的命令:

_____________________________________________________________________________________________________

    6.Spark Standalone集群搭建
        1).解压,上传
        2).在../conf/slaves 中配置Worker信息
        3).在../conf/spark-env.sh 中配置Master信息
            SPARK_MASTER_IP
            SPARK_MASTER_PORT
            SPARK_WORKER_CORES
            SPARK_WORKER_MEMORY
        4).发送到其他节点 scp -r /spark1.6 nodex:`pwd`
        5).在Master节点启动集群:../sbin/start-all.sh
        
    7.搭建客户端
        原封不动将Spark安装包复制到一台新的节点,在这个节点中../bin/spark-submit提交任务,这个节点就是客户端。
            
    8.SparkPI 提交任务    
    9.创建RDD?
        java:
            sc.textFile(xxx,minNumPartitions)
            sc.parallelize(xx,numpartition)
            sc.parallelizePairs(seq[Tuple2<k,v>]) 将数据转换成K,V格式的RDD
        scala:
            sc.textFile(xxx,minNumPartitions)
            sc.parallelize(xx,numpartition)
            sc.makeRDD(xx,numpartition)
    10.Spark 基于Yarn 提交任务:
        在客户端 ../conf/spark-env.sh 中配置 HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

Spark部分:Spark集群的搭建与属性的配置