Spark单机部署
spark版本选型:
spark2.1.2。依赖scala2.11.8;说明:在这里可以根据自己的需要去官网下载spark版本,spark版本下面会有scala版本依赖说 明;根据需要下载。
spark解压安装:
上传spark安装包
$cd /home/spark/soft (spark安装包存在路径)
$>tar -zxvf spark-2.1.2-bin-hadoop2.7.tgz (解压)
$>ln -s spark-2.1.2-bin-hadoop2.7 spark (方便起见可以创建软连接)
配置环境变量:
修改【~/.bash_profile】,在文件尾部追加以下内容:
#spark install
export SPARK_HOME=/home/spark/soft/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
$>source ~/.bash_profile (刷新环境变量使其生效)
单机版搭建完成:
测试命令:$>spark-shell
日志说明:
1)spark的开启日志很多可以在conf目录下创建一个log4j.properties的文件来管理日志调整日志的级别来控制输出信息,开发者加入的日志设置文件模板为log4j.properties.template;把他复制到log4j.properties中,把下面一行修改为
log4j.rootCategory=INFO, console 修改为:log4j.rootCategory=WARN, console
发现日志输出大大减少。
2)访问的Web UI在里面也有显示
3)
Spark context对象代表对集群的链接,简称sc,master是节点,local代表本地,[*]代表开启了多少线程;
4)spark session 可以用spark代替
5)spark和sc的区别:spark命令补全以后基本都是spark-sql应用,sc补全是一些方法;