Spark的基础应用
目的要求
- 搭建Spark集群环境;
- Spark集群的启动、浏览与关闭;
- 使用Eclipse编写Spark应用程序包;
- 如何运行Spark任务;
实验环境
- Java jdk 1.7;
- apache-maven-3.6.0;
- Eclipse;
- Apache_Hadoop集群;
- 安装配置Spark
- 具体规划:
主机名 |
IP地址 |
服务描述 |
Cluster-01 |
192.168.10.111 |
master节点 |
Cluster-03 |
192.168.10.113 |
Slave01节点 |
Cluster-04 |
192.168.10.114 |
Slave01节点 |
练习内容
任务一: Spark集群环境部署;
1、下载地址;http://spark.apache.org/downloads.html
2、将Spark软件上传至集群中;
3、将软件压缩包进行解压;
4、移动解压文件,并重新命名;
5、配置环境变量,使其生效;
6、配置修改spark的相关文件;
6.1、配置spark文件;
6.2、配置slaves文件;
7、配置完以上文件后,将Master主机的/home/admin/spark文件发送至其他两台主机;
任务二:启动Spark集群并进行验证;
1、启动hadoop集群;
1.1、启动Zookeeper服务;
指令:$zkServer.sh start
1.2、启动Hadoop服务;
指令:$start-all.sh
1.3查看进程:
指令:$jps
2、启动Master节点;
指令:$sbin/start-master.sh
3、启动所有的Slave节点;
指令:$sbin/start-slaves.sh
4、在浏览器上查看Spark集群的管理信息;
5、启动Spark-shell;
任务三:关闭Spark集群
1、首先管理spark的master节点,然后关闭spark的slaves节点,最后关闭Hadoop集群;
任务四:编写Spark应用程序
1、准备测试数据:hdfs: //Cluster-01:9000/user/input/hello.txt;
2、启动Spark-shell。运行WordCount词频统计程序;