spark的安装搭建

Standalone模式

  • 1 . 安装包上传服务器并解压
    spark的安装搭建
  • 2 . spark解压文件下conf目录中将slaves.template文件更名为slaves
    spark的安装搭建
  • 3 . 修改slaves文件 , 配置从节点work
    spark的安装搭建
  • 4 . 上步完成后 , 将同目录下的 spark-env.sh.template 更名为 spark-env.sh
    spark的安装搭建
  • 5 . 修改spark-env.sh , 注意设置参数请参考虚拟机或服务器的实际性能
    spark的安装搭建
  • 6 . 将配置好的spark解压文件同步到集群其他节点 , 无所谓master和work .
  • 7 . 启动集群 , 到sbin目录下start-all.sh , 注意如果配置环境变量可以和hadoop的start-all.sh命令冲突
    spark的安装搭建
  • 8 . 集群启动后可以通过ip和8080端口访问web
    spark的安装搭建
  • 测试 , 可通过spark解压文件bin目录下的spark-submit命令后跟mater节点ip和7077端口 , 调用lib多级目录下的sparkPi函数 传入100参数进行测试 .
    ./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
    spark的安装搭建

Yarn模式

  • yarn模式的启动先回到集群未启动的情况下
  • 配置spark-env.sh
    • 1 . spark集群在yarn模式下进行资源管理任务调度 , 首先要知道yarn的情况 , 找到yarn-site.xml的位置
      spark的安装搭建
    • 2 . 再次修改spark解压文件下conf目录中的spark-env.sh文件 , 通过阅读蓝色字的注释 , 配置HADOOP_CONF_DIR , 将yarn-site.xml的位置填入.
      spark的安装搭建
  • 启动zookeeper : zkServer.sh start
  • 启动hadoop集群:start-all.sh
  • spark集群在yarn模式下进行资源管理任务调度时 , 通过sbin目录下spark.submit命令 , master后面的spark更换为yarn , 再次调用sparkPi函数进行测试
    • ./spark-submit --master yarn --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 10000
    • 通过访问yarn的web页面 , 可以查看到sparkPi的job任务执行状况
      spark的安装搭建