Spark单机部署

spark版本选型:

spark2.1.2。依赖scala2.11.8;说明:在这里可以根据自己的需要去官网下载spark版本,spark版本下面会有scala版本依赖说   明;根据需要下载。

spark解压安装:

上传spark安装包

$cd /home/spark/soft (spark安装包存在路径)

$>tar -zxvf spark-2.1.2-bin-hadoop2.7.tgz    (解压)

$>ln -s spark-2.1.2-bin-hadoop2.7 spark  (方便起见可以创建软连接)

配置环境变量:

修改【~/.bash_profile】,在文件尾部追加以下内容:

#spark install
        export SPARK_HOME=/home/spark/soft/spark
        export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

 $>source ~/.bash_profile (刷新环境变量使其生效)

单机版搭建完成:

测试命令:$>spark-shell

Spark单机部署

日志说明:

1)spark的开启日志很多可以在conf目录下创建一个log4j.properties的文件来管理日志调整日志的级别来控制输出信息,开发者加入的日志设置文件模板为log4j.properties.template;把他复制到log4j.properties中,把下面一行修改为

log4j.rootCategory=INFO, console  修改为:log4j.rootCategory=WARN, console 

发现日志输出大大减少。

2)访问的Web UI在里面也有显示

Spark单机部署

3)Spark单机部署

Spark context对象代表对集群的链接,简称sc,master是节点,local代表本地,[*]代表开启了多少线程;

4)spark session 可以用spark代替

5)spark和sc的区别:spark命令补全以后基本都是spark-sql应用,sc补全是一些方法;