spark的完全分布式搭建

版本:scala2.13.1
spark-2.4.5-bin-hadoop2.7.tgz
hadoop2.7.6
jdk1.8.0_162
环境:hadoop101 hadoop102 hadoop103

此文章在以上软件版本都解压好并且配置好/etc/profile之后开始操作(我现在好困,我不想写,我就当你弄完了,解压的位置你随便创建一个新的文件夹,便于你管理就行)

然后开始,进入spark的文件夹下的conf
spark的完全分布式搭建
执行:
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
spark的完全分布式搭建
保存退出,执行:
cp slaves.template slaves
vi slaves
把里边七七八八的都删了,改成如图
spark的完全分布式搭建
保存退出,进入spark中的sbin,执行:
vi spark-config.sh
加入这句
spark的完全分布式搭建
保存退出

最后执行
rsync -rvl /opt/software/spark-2.4.5-bin-hadoop2.7/
[email protected]:/opt/software/spark-2.4.5-bin-hadoop2.7/(这是一整句)

rsync -rvl /opt/software/spark-2.4.5-bin-hadoop2.7/
[email protected]:/opt/software/spark-2.4.5-bin-hadoop2.7/
将spark和scala以及他们的配置文件都拷贝到其他的两台机子上
(没有rsync的,在两台机子上重复以上操作)

现在可以启动hadoop集群:start-dfs.sh和yarn集群:start-yarn.sh
再在spark的sbin文件下执行:start-all.sh即可
spark的完全分布式搭建spark的完全分布式搭建
spark的完全分布式搭建
这里在浏览器输入你的master的IP:8080就可以看见spark的完全分布式搭建
(之前有报错,我有一个删除的spark的log文件夹下的所有文件的操作)