Spark单机部署

spark版本选型：

spark2.1.2。依赖scala2.11.8；说明：在这里可以根据自己的需要去官网下载spark版本，spark版本下面会有scala版本依赖说明；根据需要下载。

spark解压安装：

上传spark安装包

$cd /home/spark/soft （spark安装包存在路径）

$>tar -zxvf spark-2.1.2-bin-hadoop2.7.tgz （解压）

$>ln -s spark-2.1.2-bin-hadoop2.7 spark （方便起见可以创建软连接）

配置环境变量：

修改【~/.bash_profile】,在文件尾部追加以下内容：

#spark install
export SPARK_HOME=/home/spark/soft/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

$>source ~/.bash_profile （刷新环境变量使其生效）

单机版搭建完成：

测试命令：$>spark-shell

Spark单机部署

日志说明：

1）spark的开启日志很多可以在conf目录下创建一个log4j.properties的文件来管理日志调整日志的级别来控制输出信息，开发者加入的日志设置文件模板为log4j.properties.template；把他复制到log4j.properties中，把下面一行修改为

log4j.rootCategory=INFO, console 修改为：log4j.rootCategory=WARN, console

发现日志输出大大减少。

2）访问的Web UI在里面也有显示

Spark单机部署

3） Spark单机部署

Spark context对象代表对集群的链接，简称sc，master是节点，local代表本地，[*]代表开启了多少线程；

4）spark session 可以用spark代替

5）spark和sc的区别：spark命令补全以后基本都是spark-sql应用，sc补全是一些方法；