SPARK编译部署和sparkbench编译

1. 安装JDK7.0以上版本**

先输入以下命令查看是否安装了JDK:
java -version
如果没有安装JDK,在ubuntu上可以直接通过以下命令安装:
sudo apt-get install openjdk-7-jdk
默认安装目录为：usr/lib/jvm/java-7-openjdk-ppc64el
设置环境变量
sudo vim /etc/profile
export JAVA_HOME=usr/lib/jvm/java-7-openjdk-ppc64el
export PATH=（dollar符号）JAVA_HOME/bin:（dollar符号）PATH
source /etc/profile

2. 安装maven

先输入以下命令查看是否安装了maven：
mvn -v
两种安装方式：
（1）在ubuntu上，可以使用apt-get install maven来安装，但是版本可能太低，会导致一些错误；
（2）建议在maven官网：http://maven.apache.org/download.cgi下载maven源码进行安装。
A.确保JAVA_HOME环境变量被设置，安装了JDK；
B.将下载的maven源码包解压后，将bin增加到环境变量中，例如：
sudo vim /etc/profile
export MAVEN_HOME= /opt/apache-maven-3.3.9
export PATH=（dollar符号）MAVEN_HOME/bin:（dollar符号）PATH
source /etc/profile
C.输入命令：mvn -v，能显示maven相关信息，就成功安装maven。

3. 安装scala

到scala官网下载对应版本的scala，如：scala-2.10.5.tgz
tar -zxvf scala-2.10.5.tgz
增加scala路径到环境变量中，如：
sudo vim /etc/profile
export SCALA_HOME=/usr/local/scala-2.10.5
export PATH=（dollar符合）SCALA_HOME/bin:（dollar符号）PATH
source /etc/profile

4. 编译Spark源码（下载预编译版本的跳过此步）

在Spark官网下载对应版本的Spark源码,如：spark-1.5.0.tgz
tar -zxvf spark-1.5.0.tar
cd spark-1.5.0
./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -DskipTests clean package
./make-distribution.sh –name custom-spark –tgz -Phadoop-2.6 -Pyarn
然后在spark-1.5.0目录下可以看到：spark-1.5.0-bin-custom-spark.tgz
这个就是我们编译好的Spark，相当于我们直接在官网下载的预编译版本。其中2.6是希望的hadoop版本，可以参考Spark官网的建议，选择合适的Hadoop版本。这里编译时的Hadoop版本需要与部署时一致。

5. 设置SSH无密码登录

sudo apt-get install openssh-server
ssh localhost
exit #退出localhost
设置无密码登录
cd ~/.ssh #在home目录下有一个隐藏文件.ssh
ssh-****** -t rsa
cat id_rsa.pub >> authorized_keys
ssh localhost #登录localhost就不用再输入密码了
exit #退出localhost

6. 部署Hadoop（Spark是计算框架，依赖于Hadoop的文件系统）

（1）下载Hadoop
需要下载与spark编译或预编译版本对应的Hadoop版本，下载网址：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/
选择合适的Hadoop版本下载。
（2）配置Hadoop的环境变量
sudo vim /etc/profile
export HADOOP_HOME=/usr/local/hadoop-2.6.0
export PATH=（dollar符号）PATH:（dollar符号）HADOOP_HOME/bin
source /etc/profile
（3）修改Hadoop配置文件
cd $HADOOP_HOME/etc/hadoop
修改hadoop-env.sh，配置JAVA_HOME
修改core-site.xml，在两个configuration中间加入：
SPARK编译部署和sparkbench编译
修改hdfs-site.xml，在两个configuration中间加入：

上面标红色的都是（dollar符号）HADOOP_HOME.
cd （dollar符号）HADOOP_HOME/sbin
./start-all.sh
用jps命令查看是否hadoop成功启动五个点：NameNode，DataNode，ResourceManager，NodeManager，SecondaryNameNode。
./stop-all.sh
这个命令的作用是停止所有的Hadoop进程。

7. 部署Spark的standalone模式（单节点）

将编译后的Spark或者下载的预编译版本解压，如：
tar -zxvf spark-1.5.0-bin-custom-spark.tgz
增加Spark路径到环境变量,如：
sudo vim /etc/profile
export SPARK_HOME=/home/hadoop/spark-1.5.0
export PATH=（dollar符号）SPARK_HOME/bin:（dollar符号）PATH
source /etc/profile
cd （dollar符号）SPARK_HOME/conf
将目标下的所有临时文件都重新copy一份，去掉后面的.template，如：
cp spark-env.sh.template spark-env.sh
vim spark-env.sh
在里面加入如下：
export SPARK_MASTER_IP=ubuntu205 #部署节点名
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-ppc64el
export SCALA_HOME=/usr/local/scala-2.10.5
export HADOOP_HOME=/usr/local/hadoop-2.6.0
export SPARK_MASTER_PORT=7077
export SPARK_LOCAL_IP=ubuntu205 #部署节点名
cd $SPARK_HOME/sbin
./start-all.sh
jps
查看是否存在worker和master，如果存在，表示Spark部署成功。
./stop-all.sh
这个命令作用是停止所有的Spark进程。
上面标红色的部分都是根据已有的配置进行配置。

8. 编译SparkBench

（1）下载SparkBench源码，网址：https://github.com/SparkTC/spark-bench
10.100.8.131:/home/public/common下也有，是之前他们下载的。
（2）首先确保JDK,Maven, Hadoop-YARN, Spark的运行环境都设置好；
（3）下载wikixmlj，cd到一个目录下，执行以下命令：
git clone https://github.com/synhershko/wikixmlj.git
cd wikixmlj
mvn package install
（4）为了使用方便，将SparkBench的路径增加到环境变量中：
sudo vim /etc/profile
export SPARKBENCH_HOME=/usr/local/spark-bench
source /etc/profile
（5）编译SparkBench
cd （dollar符号）SPARKBENCH_HOME/bin目标下
./build-all.sh 编译SparkBench
（6）#vim $SPARKBENCH_HOME/conf/env.sh
修改以下两项为：
master=ubuntu205 //部署节点名
MC_LIST=ubuntu205
注意：Spark和SparkBench的编译由于源不稳定，可能都需要多编译几次。

SPARK编译部署和sparkbench编译

SPARK编译部署和sparkbench编译

1. 安装JDK7.0以上版本**

2. 安装maven

3. 安装scala

4. 编译Spark源码（下载预编译版本的跳过此步）

5. 设置SSH无密码登录

6. 部署Hadoop（Spark是计算框架，依赖于Hadoop的文件系统）

7. 部署Spark的standalone模式（单节点）

8. 编译SparkBench

相关推荐