spark的完全分布式搭建

版本：scala2.13.1
spark-2.4.5-bin-hadoop2.7.tgz
hadoop2.7.6
jdk1.8.0_162
环境：hadoop101 hadoop102 hadoop103

此文章在以上软件版本都解压好并且配置好/etc/profile之后开始操作（我现在好困，我不想写，我就当你弄完了,解压的位置你随便创建一个新的文件夹，便于你管理就行）

然后开始，进入spark的文件夹下的conf
spark的完全分布式搭建
执行：
cp spark-env.sh.template spark-env.sh
vi spark-env.sh

保存退出，执行：
cp slaves.template slaves
vi slaves
把里边七七八八的都删了，改成如图

保存退出，进入spark中的sbin，执行：
vi spark-config.sh
加入这句

保存退出

最后执行
rsync -rvl /opt/software/spark-2.4.5-bin-hadoop2.7/
[email protected]:/opt/software/spark-2.4.5-bin-hadoop2.7/（这是一整句）

rsync -rvl /opt/software/spark-2.4.5-bin-hadoop2.7/
[email protected]:/opt/software/spark-2.4.5-bin-hadoop2.7/
将spark和scala以及他们的配置文件都拷贝到其他的两台机子上
（没有rsync的，在两台机子上重复以上操作）

现在可以启动hadoop集群：start-dfs.sh和yarn集群：start-yarn.sh
再在spark的sbin文件下执行：start-all.sh即可
spark的完全分布式搭建

这里在浏览器输入你的master的IP:8080就可以看见
（之前有报错，我有一个删除的spark的log文件夹下的所有文件的操作）

spark的完全分布式搭建

相关推荐