spark的安装搭建

Standalone模式

1 . 安装包上传服务器并解压
2 . spark解压文件下conf目录中将slaves.template文件更名为slaves
3 . 修改slaves文件 , 配置从节点work
4 . 上步完成后 , 将同目录下的 spark-env.sh.template 更名为 spark-env.sh
5 . 修改spark-env.sh , 注意设置参数请参考虚拟机或服务器的实际性能
6 . 将配置好的spark解压文件同步到集群其他节点 , 无所谓master和work .
7 . 启动集群 , 到sbin目录下start-all.sh , 注意如果配置环境变量可以和hadoop的start-all.sh命令冲突
8 . 集群启动后可以通过ip和8080端口访问web
测试 , 可通过spark解压文件bin目录下的spark-submit命令后跟mater节点ip和7077端口 , 调用lib多级目录下的sparkPi函数传入100参数进行测试 .
./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100

yarn模式的启动先回到集群未启动的情况下
配置spark-env.sh
- 1 . spark集群在yarn模式下进行资源管理任务调度 , 首先要知道yarn的情况 , 找到yarn-site.xml的位置
- 2 . 再次修改spark解压文件下conf目录中的spark-env.sh文件 , 通过阅读蓝色字的注释 , 配置HADOOP_CONF_DIR , 将yarn-site.xml的位置填入.
启动zookeeper : zkServer.sh start
启动hadoop集群:start-all.sh
spark集群在yarn模式下进行资源管理任务调度时 , 通过sbin目录下spark.submit命令 , master后面的spark更换为yarn , 再次调用sparkPi函数进行测试
- ./spark-submit --master yarn --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 10000
- 通过访问yarn的web页面 , 可以查看到sparkPi的job任务执行状况