centos6.5集群环境下Spark安装
1:下载Spark对应版本,然后移动至master节点mark用户目录主目录下,并对其解压
mv spark-1.4.0-bin-hadoop2.4.tgz /home/mark
tar –zvxf spark-1.4.0-bin-hadoop2.4.tgz
2:配置Spark-env.sh
进入spark-1.4.0-bin-hadoop2.4/conf,复制其中的spark-env.sh.template并另存为该目录下的spark-env.sh
cd spark-1.4.0-bin-hadoop2.4/conf
cp spark-env.sh.template spark-env.sh
打开spark-env.sh,将下面代码添加至spark-env.sh中
vim spark-env.sh
export HADOOP_CONF_DIR=/home/mark/hadoop-2.5.2/
export JAVA_HOME=/usr/java/jdk1.7.0_71/
export SCALA_HOME=/usr/scala-2.10.4
#绑定一个外部IP给master
export SPARK_MASTER_IP=192.168.189.136
#master启动端口(默认:7077)
export SPARK_MASTER_PORT=7077
#master的Web UI端口(默认:8080)
export SPARK_MASTER_WEBUI_PORT=8080
#worker的启动窗口(默认:7078)
export SPARK_WORKER_PORT=7078
#worker的Web UI端口(默认:8081)
export SPARK_WORKER_WEBUI_PORT=8081
#作业可用的CPU内核数量(默认:所有可用)
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
#作业可使用的内存容量(默认:所有RAM去掉操作系统所用的1GB,需要注意的是:该参数值必须是整数值,单位只能是g或m,例如2g或1000m)
export SPARK_WORKER_MEMORY=2g
export SPARK_JAR=/home/mark/spark-1.4.0-bin-hadoop2.4/lib/spark-assembly-1.4.0-hadoop2.4.0.jar
3:配置Spark-defaults.conf
进入spark-1.4.0-bin-hadoop2.4/conf,复制spark-defaults.conf.template并另存为该目录下spark-defaults.conf
cd spark-1.4.0-bin-hadoop2.4/conf
cp spark-defaults.conf.template spark-defaults.conf
打开spark-defaults.conf,并添加以下代码
vim spark-defaults.conf
spark.master=spark://192.168.189.136:7077(该参数需要根据用户master节点的实际IP地址进行配置)
4:配置slaves
进入spark-1.4.0-bin-hadoop2.4/conf,复制其中的slaves.template并另存为该目录下的slaves
cp slaves.template slaves
打开slaves
vim slaves
在slaves中添加子节点机器名或IP地址
slave1
slave2
(注意在编辑slaves文件时每个机器名或IP地址独占一行)
5:配置环境变量
配置系统文件
vim /home/mark/.bash_profile
将下面代码添加到文件中
export SPARK_HOME=/home/mark/spark-1.4.0-bin-hadoop2.4/
export PATH=$PATH:$SPARK_HOME/bin
使配置生效
source /home/mark/.bash_profile
6:发送至Slave1、Slave2
scp -r ~/spark-1.4.0-bin-hadoop2.4 slave1:~/
scp -r ~/spark-1.4.0-bin-hadoop2.4 slave2:~/
重复第5步,为子节点配置环境变量
7:启动Spark
启动Hadoop,进入spark-1.4.0-bin-hadoop2.4启动集群
cd ~/hadoop-2.5.2
sbin/start-all.sh
cd spark-1.4.0-bin-hadoop2.4
sbin/start-master.sh
sbin/start-slaves.sh
验证集群是否搭建成功,分别在master、slave1、slave2上通过jps命令查看进程
也可以进入spark-1.4.0-bin-hadoop2.4通过Spark-shell进一步验证Spark集群的安装情况
cd spark-1.4.0-bin-hadoop2.4
bin/spark-shell
也可以通过Web UI查看Spark集群各节点的状态,master节点监控端口号为8080,slave1与slave2为8081