Spark部分:Spark集群的搭建与属性的配置
Spark集群的搭建
Spark集群的搭建,基于standalone的集群的搭建,先用3台搭建,第四台搭建客户端
搭建之前先拍一个快照
在主master上上传,解压,修改报名,删除以前的包,进入conf
修改conf下的env和临时文件
在conf文件下的spark-env文件下添加:
export SPARK_MASTER_IP=192.168.198.21
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=2
export SPARK_WORKER_MEMORY=3g
在slaves文件下添加node02,node03
进入修改配置
启动:在主节点下的sbin下启动:
./start-all
启动master,同时启动worker
拷贝分发:
scp -r ./spark-1.6.0/ 192.168.198.23:$PWD
scp -r ./spark-1.6.0/ 192.168.198.22:`pwd`
改8080端口:
第一种:
Sbin:master
vi start-master.sh
将8080端口修改为9999
Node01:9999去网页端验证
第二种:
在conf下
vi spark-env.sh
添加:
export SPARK_MASTER_WEBUI_PORT=8888
第三种;
在conf下:
[[email protected] conf]# export SPARK_MASTER_WEBUI_PORT=9898
这种关机之后会自动失效
在conf下输入:export可以查看
在conf下输入[[email protected] conf]# export -n SPARK_MASTER_WEBUI_PORT可以取消端口号
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
standalone集群搭建
1.上传下载
2.在slave中配置worker节点的信息
3.在spark_env下配置mater信息
Spark_master_ip=node01
Spark_master_port=7077
Spark_worker_cores=2
Spark_worker_memory=3g
4.发送到node02和node03节点
5.在master节点../sbin下启动集群 ./start-all.sh
6.访问前端node01:8008
7.修改端口,在spark-env下修改
————————————————————————————————————————————————————————
Spark写代码的流程
- 设置conf
- 设置APPname
- RDD
- 对Rdd实行application
- 用application去触发执行
- Sc.stop关掉
- ——————————————————————————
- 启动resourcemanager的命令:
_____________________________________________________________________________________________________
6.Spark Standalone集群搭建
1).解压,上传
2).在../conf/slaves 中配置Worker信息
3).在../conf/spark-env.sh 中配置Master信息
SPARK_MASTER_IP
SPARK_MASTER_PORT
SPARK_WORKER_CORES
SPARK_WORKER_MEMORY
4).发送到其他节点 scp -r /spark1.6 nodex:`pwd`
5).在Master节点启动集群:../sbin/start-all.sh
7.搭建客户端
原封不动将Spark安装包复制到一台新的节点,在这个节点中../bin/spark-submit提交任务,这个节点就是客户端。
8.SparkPI 提交任务
9.创建RDD?
java:
sc.textFile(xxx,minNumPartitions)
sc.parallelize(xx,numpartition)
sc.parallelizePairs(seq[Tuple2<k,v>]) 将数据转换成K,V格式的RDD
scala:
sc.textFile(xxx,minNumPartitions)
sc.parallelize(xx,numpartition)
sc.makeRDD(xx,numpartition)
10.Spark 基于Yarn 提交任务:
在客户端 ../conf/spark-env.sh 中配置 HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop