SPARK编译部署和sparkbench编译

SPARK编译部署和sparkbench编译

1. 安装JDK7.0以上版本**

先输入以下命令查看是否安装了JDK:
java -version
如果没有安装JDK,在ubuntu上可以直接通过以下命令安装:
sudo apt-get install openjdk-7-jdk
默认安装目录为:usr/lib/jvm/java-7-openjdk-ppc64el
设置环境变量
sudo vim /etc/profile
export JAVA_HOME=usr/lib/jvm/java-7-openjdk-ppc64el
export PATH=(dollar符号)JAVA_HOME/bin:(dollar符号)PATH
source /etc/profile

2. 安装maven

先输入以下命令查看是否安装了maven:
mvn -v
两种安装方式:
(1)在ubuntu上,可以使用apt-get install maven来安装,但是版本可能太低,会导致一些错误;
(2)建议在maven官网:http://maven.apache.org/download.cgi下载maven源码进行安装。
A.确保JAVA_HOME环境变量被设置,安装了JDK;
B.将下载的maven源码包解压后,将bin增加到环境变量中,例如:
sudo vim /etc/profile
export MAVEN_HOME= /opt/apache-maven-3.3.9
export PATH=(dollar符号)MAVEN_HOME/bin:(dollar符号)PATH
source /etc/profile
C.输入命令:mvn -v,能显示maven相关信息,就成功安装maven。

3. 安装scala

到scala官网下载对应版本的scala,如:scala-2.10.5.tgz
tar -zxvf scala-2.10.5.tgz
增加scala路径到环境变量中,如:
sudo vim /etc/profile
export SCALA_HOME=/usr/local/scala-2.10.5
export PATH=(dollar符合)SCALA_HOME/bin:(dollar符号)PATH
source /etc/profile

4. 编译Spark源码(下载预编译版本的跳过此步)

在Spark官网下载对应版本的Spark源码,如:spark-1.5.0.tgz
tar -zxvf spark-1.5.0.tar
cd spark-1.5.0
./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -DskipTests clean package
./make-distribution.sh –name custom-spark –tgz -Phadoop-2.6 -Pyarn
然后在spark-1.5.0目录下可以看到:spark-1.5.0-bin-custom-spark.tgz
这个就是我们编译好的Spark,相当于我们直接在官网下载的预编译版本。其中2.6是希望的hadoop版本,可以参考Spark官网的建议,选择合适的Hadoop版本。这里编译时的Hadoop版本需要与部署时一致。

5. 设置SSH无密码登录

sudo apt-get install openssh-server
ssh localhost
exit #退出localhost
设置无密码登录
cd ~/.ssh #在home目录下有一个隐藏文件.ssh
ssh-****** -t rsa
cat id_rsa.pub >> authorized_keys
ssh localhost #登录localhost就不用再输入密码了
exit #退出localhost

6. 部署Hadoop(Spark是计算框架,依赖于Hadoop的文件系统)

(1)下载Hadoop
需要下载与spark编译或预编译版本对应的Hadoop版本,下载网址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/
选择合适的Hadoop版本下载。
(2)配置Hadoop的环境变量
sudo vim /etc/profile
export HADOOP_HOME=/usr/local/hadoop-2.6.0
export PATH=(dollar符号)PATH:(dollar符号)HADOOP_HOME/bin
source /etc/profile
(3)修改Hadoop配置文件
cd $HADOOP_HOME/etc/hadoop
修改hadoop-env.sh,配置JAVA_HOME
修改core-site.xml,在两个configuration中间加入:
SPARK编译部署和sparkbench编译
修改hdfs-site.xml,在两个configuration中间加入:
SPARK编译部署和sparkbench编译
上面标红色的都是(dollar符号)HADOOP_HOME.
cd (dollar符号)HADOOP_HOME/sbin
./start-all.sh
用jps命令查看是否hadoop成功启动五个点:NameNode,DataNode,ResourceManager,NodeManager,SecondaryNameNode。
./stop-all.sh
这个命令的作用是停止所有的Hadoop进程。

7. 部署Spark的standalone模式(单节点)

将编译后的Spark或者下载的预编译版本解压,如:
tar -zxvf spark-1.5.0-bin-custom-spark.tgz
增加Spark路径到环境变量,如:
sudo vim /etc/profile
export SPARK_HOME=/home/hadoop/spark-1.5.0
export PATH=(dollar符号)SPARK_HOME/bin:(dollar符号)PATH
source /etc/profile
cd (dollar符号)SPARK_HOME/conf
将目标下的所有临时文件都重新copy一份,去掉后面的.template,如:
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
在里面加入如下:
export SPARK_MASTER_IP=ubuntu205 #部署节点名
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-ppc64el
export SCALA_HOME=/usr/local/scala-2.10.5
export HADOOP_HOME=/usr/local/hadoop-2.6.0
export SPARK_MASTER_PORT=7077
export SPARK_LOCAL_IP=ubuntu205 #部署节点名
cd $SPARK_HOME/sbin
./start-all.sh
jps
查看是否存在worker和master,如果存在,表示Spark部署成功。
./stop-all.sh
这个命令作用是停止所有的Spark进程。
上面标红色的部分都是根据已有的配置进行配置。

8. 编译SparkBench

(1)下载SparkBench源码,网址:https://github.com/SparkTC/spark-bench
10.100.8.131:/home/public/common下也有,是之前他们下载的。
(2)首先确保JDK,Maven, Hadoop-YARN, Spark的运行环境都设置好;
(3)下载wikixmlj,cd到一个目录下,执行以下命令:
git clone https://github.com/synhershko/wikixmlj.git
cd wikixmlj
mvn package install
(4)为了使用方便,将SparkBench的路径增加到环境变量中:
sudo vim /etc/profile
export SPARKBENCH_HOME=/usr/local/spark-bench
source /etc/profile
(5)编译SparkBench
cd (dollar符号)SPARKBENCH_HOME/bin目标下
./build-all.sh 编译SparkBench
(6)#vim $SPARKBENCH_HOME/conf/env.sh
修改以下两项为:
master=ubuntu205 //部署节点名
MC_LIST=ubuntu205
注意:Spark和SparkBench的编译由于源不稳定,可能都需要多编译几次。