Spark实验之环境搭建

Spark实验之环境搭建

实验一 Spark环境搭建

一、 实验目的

通过实验掌握Spark运行机制,并了解其内核。

二、
实验要求

搭建Spark运行环境、分析对比Spark的几种运行模式。

三、实验内容

Spark架构
Spark实验之环境搭建

Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的

Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。

Spark Streaming:对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据

MLlib:一个常用机器学习算法库,算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代的操作。

GraphX:控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API,包含控制图、创建子图、访问路径上所有顶点的操作。

Spark架构的组成图如下:

Spark实验之环境搭建

Cluster Manager:在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器

Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。

Driver: 运行Application 的main()函数

Executor:执行器,是为某个Application运行在worker node上的一个进程

Spark安装

(1)去官网下载适合自己Hadoop版本的Spark
Spark实验之环境搭建

(1)将spark放入到opt下

Spark实验之环境搭建

(1)解压Spark

Spark实验之环境搭建

(1)配置Spark环境变量:vi /etc/profile

Spark实验之环境搭建

(1)启动Hadoop

Spark实验之环境搭建

(1)启动Spark

Spark实验之环境搭建