Spark(一)-spark安装与配置

   Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成,并且所提供的API深度借鉴Scala函数式的编程思想,提供与Scala类似的编程接口。
   学习spark有一段时间了,就针对平时的学习内容做个总结。今天就简单介绍spark集群的简单搭建。

Spark集群搭建

工具:

hadoop-2.8.5
jdk1.8.0_201
spark-2.4.3
节点:hadoop01,hadoop02,hadoop03

hadoop集群搭建这里就不重点介绍了。
主要介绍spark集群搭建。

注意:

我为了搞大数据专门搞了一个大数据的工作目录,就是普通用户主目录的app文件。
我将所有的大数据相关组件都下载在这里。将spark-2.4.3从官网下载自己对应版本的压缩包。我放在了app目录下面了,然后解压。

Spark(一)-spark安装与配置
我们来看看spark目录的一些主要文件:

  • bin和sbin就是含有一些主要的配置启动命令。
  • logs包含了日志信息。
  • conf是配置文件目录

Spark(一)-spark安装与配置
进入conf目录:

  • export SPARK_MASTER_HOST=hadoop01//主节点信息
  • export SPARK_MASTER_PORT=7077//
  • export SPARK_WORKER_CORES=2
  • export SPARK_WORKER_MEMORY=3G
  • export JAVA_HOME=/home/hadoop/app/jdk1.8.0_201//jdk的目录
  • export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.8.5/etc/hadoop//hadoop的配置目录

Spark(一)-spark安装与配置
到这里基本配置就完了。我们可以在sbin目录直接启动start-all.sh这样就启动了集群
这是基于yarn的配置,基于standlone就不需要配置hadoop的配置目录
但是在yarn部分机器可能会有内存超过一定比例限制或者hdfs的block的信息不完整的情况,导致进入安全模式,可能是yarn开启了内存检查的功能,在hadoop的yarn配置文件中添加一下文件可以改掉

< property>
< name>yarn.scheduler.maximum-allocation-mb</ name>
< value>9000</ value>
< discription>每个任务最多可用内存,单位MB,默认8192MB</ discription>
</ property>
< property>
< name>yarn.scheduler.minimum-allocation-mb</ name>
< value>200</ value>
< discription>每个任务最少可用内存,单位MB</ discription>
</ property>
< property>
< name>yarn.nodemanager.vmem-pmem-ratio</ name>
< value>4.1</ value>
< discription>container最少使用的虚拟内存比例</ discription>
< /property> 也可以关闭虚拟内存检查:
#在yarn-site.xml中设置: < property> < name>yarn.nodemanager.vmem-check-enabled< /name>
< value>false</ value>
</ property>