菜鸟先飞之spark安装配置

接受了诸多软件的的毒打，想必spark算是简单的配置了，话不多说，让我们随便戳戳！

一、安装准备

1、首先检查是否安装了 jdk, 和版本是否符合要求。

2、准备 spark-2.2.0-bin-hadoop2.7.tgz 安装文件

3、将文件拖入专门安装软件的soft文件夹（这个可以随意）

4、解压文件:tar -zxf spark-2.2.0-bin-hadoop2.7.tgz

5、给文件改个名好吧：mv zxf spark-2.2.0-bin-hadoop2.7 spark

二、配置spark环境变量

vi /etc/profile

ps:以下是我的安装路径，若有变动，请自行调整

export SPARK_HOME=/opt/soft/spark

export PATH=$SPARK_HOME/bin:$PATH

三、修改配置文件

切换至 spark 的 conf 目录：cd /opt/soft/spark/conf

复制当前目录下的spark-env.sh.template文件并改名：cp spark-env.sh.template spark-env.sh

在任意位置新增（我通常都放末尾 shift + g 跳转至文件末尾）

export HADOOP_CONF_DIR=/opt/soft/hadoop/etc/hadoop

export JAVA_HOME=/opt/soft/java8

ps:使spark运行在yarn上，必配，否则连不上YARN，并访问不了HDFS，并且要求HADOOP环境变量已正确配置；jdk的最好也写一下，否则可能会报出异常

四、启动Spark Standalone集群

sbin/start-all.sh

ps:确保指向spark目录

若正常运行让我们 jps 一下查看进程出现了 worker 和 Master 就成功了一半

菜鸟先飞之spark安装配置

五、运行spark

spark-shell --master yarn

菜鸟先飞之spark安装配置

或者启动spark-shell 测试scala交互式环境：spark-shell --master spark://localhost:7077

ps:这边的localhost最好改成虚拟机的ip地址，这样更稳妥，有小伙伴说hostname也可以，大家自行参考吧！