Spark简介及安装测试

spark是什么？

Apache Spark™ is a unified analytics engine for large-scale data processing.：统一分析引擎为海量数据处理

统一：什么样的数据都能处理分析，什么类型的数据都可以处理，实时，离线，流式都可以

MapReduce

map，reduce函数

将分析的中间结果放在磁盘中，并且后续进行分析数据的时候，再次从磁盘中去读取数据，以往此往返。。。

Runs Everywhere

-a.spark要处理的数据在哪里

hdfs/hive/HBASE/ORC/parquet/csv/tsv/jdbc/redis/mangdb/ES/…

spark能从哪里读数据，就可以往那里写数据

-b.spark程序运行在哪里

本地模式

集群模式

Yarn，Standalone,mesos Cluster

spark分析数据的过程（3步骤）

第一步、数据的读取（输入）

将要处理的数据读取封装到一个集合RDD中（类别Scala中List列表）

val inputRDD = sc.textFile(‘…”)

第二步、数据处理(分析)

调用集合RDD中函数(高阶函数)进行处理分析

RDD –>函数 ->另外一个RDD ：transformation函数

val outpuRDD = inputRDD.#(#:基本就是List中函数)

比如：

map\flatMap\filter\reducebyKey

第三步、数据的输出（输出）

调用RDD中函数，返回的不是RDD类型

outputRDD.# :此类型函数称为Action函数

foreach\count\sum\first

3步放在一起，就是链式编程

sc.textFile(…).transformation().action

spark安装

依赖

JDK8， scala

安装包准备

我这里准备的是spark-2.2.0-bin-hadoop2.7.tgz的安装包，安装包可以在spark官网（http://spark.apache.org/）下载

上传解压

使用Linux自带的上传工具，将spark安装包上传到Linux下，然后解压到你想要安装的目录下

修改配置

进入到已经安装好的spark目录下的conf目录下，

将spark-env.sh.template修改为spark-env.sh

mv spark-env.sh.template spark-env.sh

然后进入到该文件里面添加配置

java的安装目录，Scala的安装目录已经Hadoop的配置文件目录

Spark简介及安装测试

启动

可以查看帮助命令：

bin/spark-shell --help

启动交互式命令

bin/spark-shell --master local[2]

是否启动成功

不报错，进入交互式命令行

Spark简介及安装测试

也可进入图中所示链接进入网页查看

到此，spark的安装就完成了

Spark简介及安装测试

spark是什么？

spark分析数据的过程（3步骤）

spark安装

相关推荐