菜鸟先飞之spark安装配置
接受了诸多软件的的毒打,想必spark算是简单的配置了,话不多说,让我们随便戳戳!
一、安装准备
1、首先检查是否安装了 jdk, 和版本是否符合要求。
2、准备 spark-2.2.0-bin-hadoop2.7.tgz 安装文件
3、将文件拖入专门安装软件的soft文件夹(这个可以随意)
4、解压文件:tar -zxf spark-2.2.0-bin-hadoop2.7.tgz
5、给文件改个名好吧:mv zxf spark-2.2.0-bin-hadoop2.7 spark
二、配置spark环境变量
vi /etc/profile
ps:以下是我的安装路径,若有变动,请自行调整
export SPARK_HOME=/opt/soft/spark
export PATH=$SPARK_HOME/bin:$PATH
三、修改配置文件
切换至 spark 的 conf 目录:cd /opt/soft/spark/conf
复制当前目录下的spark-env.sh.template文件并改名:cp spark-env.sh.template spark-env.sh
在任意位置新增(我通常都放末尾 shift + g 跳转至文件末尾)
export HADOOP_CONF_DIR=/opt/soft/hadoop/etc/hadoop
export JAVA_HOME=/opt/soft/java8
ps:使spark运行在yarn上,必配,否则连不上YARN,并访问不了HDFS,并且要求HADOOP环境变量已正确配置;jdk的最好也写一下,否则可能会报出异常
四、启动Spark Standalone集群
sbin/start-all.sh
ps:确保指向spark目录
若正常运行 让我们 jps 一下 查看进程 出现了 worker 和 Master 就成功了一半
五、运行spark
spark-shell --master yarn
或者 启动spark-shell 测试scala交互式环境 :spark-shell --master spark://localhost:7077
ps:这边的localhost最好改成虚拟机的ip地址,这样更稳妥,有小伙伴说hostname也可以,大家自行参考吧!