zeppelin 安装使用,测试spark,spark sql
最近研究学习,发现一个新的大杀器
zeppelin
看这个图标就特别像小时候玩红警的大鲨鱼飞艇,基洛夫
看了看官方的功能
A web-based notebook that enables interactive data analytics. |
卧槽
web形式的笔记本,交互式数据分析
可以优雅的进行协作开发。
支持的语言以及框架
你们说这是不是大杀器
言归正传,我们先走个安装节奏
我是下的all包
然后找找官方有不有快速开始的文档
发现就是改几个配置就可以直接启动了。
貌似是单点的,不是分布式的
修改监听ip和端口
在zeppelin-site.xml文件中
修改zeppelin-env.sh
添加如下配置(这里我只使用了hadoop 和 spark,后续可能会有hive R 等需求,我再补个相关的文章)
export JAVA_HOME=/home/hadoop1/softs/jdk-1.8.0_92
export MASTER=spark://hadoop5:7077
export SPARK_HOME=/home/hadoop1/softs/spark-2.1.0-bin-hadoop2.6
export HADOOP_CONF_DIR=/home/hadoop1/softs/hadoop-2.6.0
完事就可以启动了,安全简单系数9.0
进去页面看看
官方建议需要再对系统内做些配置
我这边修改了spark 和 hdfs的配置
这里面hdfs是叫file,主要是修改了hdfs地址,以及操作账户
配置完了,我们走套代码节奏
结果出师不利,出了错误什么鬼,无法初始化
java.lang.NoClassDefFoundError: Could not initialize class org.apache.spark.rdd.RDDOperationScope$
at org.apache.spark.SparkContext.withScope(SparkContext.scala:701)
at org.apache.spark.SparkContext.textFile(SparkContext.scala:819)
... 46 elided
二话不说,先google吧
结果找到个解决套路,删除这3个包,然后重启下飞艇就可以起飞了
发现问题不断呀
结果好不容易跑起来一次,出了另外一个错误
集群配置问题,重启一下就好了
最后来个效果图