Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口。
学习spark有一段时间了，就针对平时的学习内容做个总结。今天就简单介绍spark集群的简单搭建。

Spark集群搭建

工具：

hadoop-2.8.5
jdk1.8.0_201
spark-2.4.3
节点：hadoop01，hadoop02，hadoop03

hadoop集群搭建这里就不重点介绍了。
主要介绍spark集群搭建。

注意:

我为了搞大数据专门搞了一个大数据的工作目录，就是普通用户主目录的app文件。
我将所有的大数据相关组件都下载在这里。将spark-2.4.3从官网下载自己对应版本的压缩包。我放在了app目录下面了，然后解压。

Spark(一)-spark安装与配置
我们来看看spark目录的一些主要文件：

bin和sbin就是含有一些主要的配置启动命令。
logs包含了日志信息。
conf是配置文件目录

Spark(一)-spark安装与配置
进入conf目录：

主要配置的就是spark-env.sh(由spark-env.sh.template改名而来),slaves.
slaves：
主要配置三个节点信息：
hadoop01，hadoop02，hadoop03

spark-env.sh:
我这里只截了一部分图：

export SPARK_MASTER_HOST=hadoop01//主节点信息

export SPARK_MASTER_PORT=7077//

export SPARK_WORKER_CORES=2

export SPARK_WORKER_MEMORY=3G

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_201//jdk的目录

export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.8.5/etc/hadoop//hadoop的配置目录

Spark(一)-spark安装与配置
到这里基本配置就完了。我们可以在sbin目录直接启动start-all.sh这样就启动了集群
这是基于yarn的配置，基于standlone就不需要配置hadoop的配置目录
但是在yarn部分机器可能会有内存超过一定比例限制或者hdfs的block的信息不完整的情况，导致进入安全模式，可能是yarn开启了内存检查的功能，在hadoop的yarn配置文件中添加一下文件可以改掉

< property>
< name>yarn.scheduler.maximum-allocation-mb</ name>
< value>9000</ value>
< discription>每个任务最多可用内存,单位MB,默认8192MB</ discription>
</ property>
< property>
< name>yarn.scheduler.minimum-allocation-mb</ name>
< value>200</ value>
< discription>每个任务最少可用内存，单位MB</ discription>
</ property>
< property>
< name>yarn.nodemanager.vmem-pmem-ratio</ name>
< value>4.1</ value>
< discription>container最少使用的虚拟内存比例</ discription>
< /property> 也可以关闭虚拟内存检查：
#在yarn-site.xml中设置： < property> < name>yarn.nodemanager.vmem-check-enabled< /name>
< value>false</ value>
</ property>

Spark(一)-spark安装与配置

Spark集群搭建

工具：

相关推荐