centos7关于在HADOOP伪分布式中搭建spark和scala
centos7关于在伪分布式中搭建spark和scala
1.下载相关安装包建议jdk更换为1.8版本以上的以免scala用不了
2.这里给出我的压缩包图片以及相关下载链接
链接:link
链接:link
链接:link
分别是scala,jdk,spark的解压
3.将压缩包传入虚拟机中后将他们解压(tar -zvxf 压缩包)
4.进行环境变量的添加(这些事我的路径,改为自己的即可)
依次是jdk,hadoop,spark,scala的环境变量
5.重新运行文件 source /etc/profile
检查scala版本看是否成功 scala -version如图:
6.配置spark
将 spark -env.sh.template 拷贝到 spark-env.sh (命令:mv spark -env.sh.template spark-env.sh )
我改过文件名(文件位置:/home/01/Doucuments/spark2.4.4/conf)
7.进行 spark-env.sh环境的配置:8.完成后启动hadoop和spark集群
(1)先格式化namenode:hadoop namenode -formate
因多次格式化引起的错误解决方法写过,给出链接:link
(2)开启hadoop :start-all.sh如图正确开启:
(3)开启spark集群:
进入spark的sbin目录输入 ./start-all.sh出现如下图所示则正确启动(感觉跟别人的不太一样但是也能用嘻嘻嘻~~)9.测试spark
进入spark的bin文件打开spark-shell控制台完成后如图:
10.退出和关闭
scala控制台的关闭:(:quit)一定加冒号,如图:
spark集群关闭:
进入spark的sbin目录下,在终端执行命令./stop-all.sh关闭spark集群,用jps查看是否关闭成功hadoop关闭:stop-all.sh
到此spark在伪分布式上的安装和测试结束。
补充:当然在虚拟机内置的浏览器中,当spark打开时也是可以用网页进行监测的(端口号4040),忘记截图了扣别人图:
如果我的不清晰给你们我学习的地址
地址链接:link