Azkaban3.57.0安装以及简单使用
文章目录
1.为啥什么要使用WorkFlow?
生产中ETL、以及HIve sql等作业都是通过shell命令触发运行的,我们知道Linux有自带的Crontab调度器,通过它可以进行简单作业的调度,但是对于一些依赖的作业,比如作业B依赖于作业A完成后才能开始,这是Crontab很难去配置了,因为配置Crontab人根本不知道作业具体是何时完成的,全凭经验感觉,这是不可取的。此时我们需要Work Flow来规划好作业的执行调度。
市场主流的工作流有两种:Oozie以及Azkzban。
2.常用工作流对比
- Oozie:重量级的,不推荐使用,开发需要写一堆XML配置,非常的麻烦
- Azkzban:轻量级的,推荐使用,具有很好的WEBUI交互设计,但是也是比较难用,部分功能需要自定义开发,如无短信通知功能。
3.Azkaban简介
- 首先它不是apache项目,但属于开源项目,官网地址:https://azkaban.github.io/
- 它是用于运行hadoop生态圈相关作业的批量工作流调度器,主要用于解决作业间的依赖问题,它提供了一个良好的Web操作界面。
- 两种部署模式:无论哪一种部署模式都会包含所有的特性
solo-server mode :单机模式,内置了H2数据库,web和executor服务运行在一个进程上,可用于测试,本次测试部署的是单机模式,
multiple-executor mode:集群模式,DB使用的是有主备的mysql,升级维护不影响使用,用于生产
- 具体特性可参考官网
4.安装Azkabab
安装以3.57.0版本的Azkabab需要有jdk1.8、gradle、git环境,gradle是类似于maven一样的jar依赖管理工具。
4.1下在安装包
- 下载Azkabab:前往github,注意不要选择pre-XXX开头的版本包,这里我选的是最新的3.57.0
- 下载gradle: 官网地址,我这里下载的是4.6版本
4.2配置gradle安装包
#解压
[[email protected] gradle-4.6]$ cd ~/soft/
[[email protected] soft]$ tar -zxvf ~/soft/azkaban-3.57.0.tar.gz -C ~/source/
#使用gradlew编译时会自动下载的gradle,但是太慢了,我们选择手动下载然后拷贝到wrapper目录
[ha[email protected] ~]$ cp ~/soft/gradle-4.6-all.zip ~/source/azkaban-3.57.0/gradle/wrapper/
[[email protected] ~]$ cd ~/source/azkaban-3.57.0/gradle/wrapper/
[[email protected] wrapper]$ ll
total 104284
-rw-r--r--. 1 hadoop hadoop 106724289 May 2 19:49 gradle-4.6-all.zip
-rw-rw-r--. 1 hadoop hadoop 54708 Sep 5 2018 gradle-wrapper.jar
-rw-rw-r--. 1 hadoop hadoop 736 May 2 19:47 gradle-wrapper.properties
#修改distributionUrl配置
[[email protected] wrapper]$ vim gradle-wrapper.properties
distributionUrl=gradle-4.6-all.zip
4.3安装git
#注意使用root
[[email protected] ~]$ yunm install -y git
[[email protected] ~]# git --version
git version 1.7.1
4.4编译以及安装
编译命令:./gradlew build installDist -x test,-x test表示跳过测试,跳过测试可大大降低编译所需要的时间。
#编译,编译需要下载依赖的包,故需要等待会儿
[[email protected] ~]# cd /home/hadoop/source/azkaban-3.57.0
[[email protected] azkaban-3.57.0]# ./gradlew build installDist -x test
#若遇到如下异常
FAILURE: Build failed with an exception.
What went wrong:
Execution failed for task ':az-crypto:test'.
> There were failing tests. See the report at: file:///home/hadoop/source/azkaban-3.57.0/az-crypto/build/reports/tests/test/index.html
#通过查阅子资料分析得知,缺少了jce,下载地址:https://www.oracle.com/technetwork/cn/java/javase/downloads/jce8-download-2133166-zhs.html ,解压并放在jre相关目录
[[email protected] soft]# unzip jce_policy-8.zip
[[email protected] soft]# cd UnlimitedJCEPolicyJDK8/
[[email protected] UnlimitedJCEPolicyJDK8]# ll
total 16
-rw-rw-r--. 1 root root 3035 Dec 21 2013 local_policy.jar
-rw-r--r--. 1 root root 7323 Dec 21 2013 README.txt
-rw-rw-r--. 1 root root 3023 Dec 21 2013 US_export_policy.jar
[[email protected] soft]# cp UnlimitedJCEPolicyJDK8/* /usr/java/jdk1.8.0_45/jre/lib/security/
#重新编译
[[email protected] azkaban-3.57.0]# ./gradlew build installDist -x test
#查看部署包,azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz为单机部署的包
[[email protected] azkaban-3.57.0]$ cd azkaban-solo-server/build/distributions/
[[email protected] distributions]$ ll
total 46752
-rw-rw-r--. 1 hadoop hadoop 23870855 May 2 20:10 azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz
-rw-rw-r--. 1 hadoop hadoop 24001502 May 2 20:10 azkaban-solo-server-0.1.0-SNAPSHOT.zip
#解压
[[email protected] distributions]$ mv azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz ~/soft/
[[email protected] distributions]$ cd ~/soft/
[[email protected] soft]$ tar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz -C ~/app/
#启动,注意要在安装目录启动,踩坑
[[email protected] azkaban-solo-server-0.1.0-SNAPSHOT]$ bin/start-solo.sh
[[email protected] azkaban-solo-server-0.1.0-SNAPSHOT]$ jps
19345 AzkabanSingleServer
19362 Jps
#关闭命令
[[email protected] azkaban-solo-server-0.1.0-SNAPSHOT]$ bin/shutdown-solo.sh
#(可选操作)修改配置文件,修改首页显示信息
azkaban.name=WskTest
azkaban.label=Wsk study Azkaban
#(可选操作)修改配置文件,添加登录的用户wsk
<user password="123456" roles="admin" username="wsk"/>
5.简单使用Azkabab
Azkabab的主页地址:http://localhost:8081/
5.1创建项目
创建了一个personal类型项目,名称为wsktestProject
5.2创建一个简单flow
一个flow是由.project以及.flow两个文件构成
- 编辑flow20.project文件
azkaban-flow-version: 2.0
- 编辑basic.flow,basic则是flow的名称配置具体作业信息,作业名jobA,作业的类型命令,作业配置,执行的命令
nodes:
- name: jobA
type: command
config:
command: echo "This is an echoed text." >> /home/hadoop/data/azkabantest/job1.txt
- 将作业的文件夹打zip包上传到Azkaban
- 运行flow,succeeded表示运行成功
比较奇怪,我的文件并没有输出到文本中,但是我换了一个其它命令是可以运行的。
5.2创建一个多job的flow
- 编辑flow文件
nodes:
- name: jobC
type: noop
# jobC depends on jobA and jobB
dependsOn:
- jobA
- jobB
- name: jobA
type: command
config:
command: echo "This is an echoed text."
- name: jobB
type: command
config:
command: pwd
type:noop表示无操作,dependson表示作业的依赖关系
- 编辑project文件
azkaban-flow-version: 2.0
- 运行flow,succeeded表示运行成功,下图是作业间的依赖关系
5.3创建一个wc的MR任务的flow
wc使用的是hadoop自带的example的jar包
- 编辑flow文件
nodes:
- name: jobA
type: command
config:
command: /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/bin/hadoop jar /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount file:///home/hadoop/data/azkabantest/word.txt file:///home/hadoop/data/azkabantest/output1
type:noop表示无操作,dependson表示作业的依赖关系
- 编辑project文件
azkaban-flow-version: 2.0
- 将文件夹打zip包上传运行。WC是MR任务,运行时启动是需要一定时间的
- 查看结果
[[email protected] azkabantest]$ ll output1/
total 4
-rw-r--r--. 1 hadoop hadoop 65 May 3 00:27 part-r-00000.bz2
-rw-r--r--. 1 hadoop hadoop 0 May 3 00:27 _SUCCESS
[[email protected] azkabantest]$ vim output1/part-r-00000.bz2
hao 2
he 1
hello 1
hellow 1
ni 1
word 3 、
5.4 如何修改已经上传的flow?
如下图选择job然后选择edit,这样我们就可以不通过重新压缩就可更改job作业
5.5 如何给flow添加调度?
如下图,可非常方便的为flow添加相应的调度
5.6 如何给调度配置邮箱告警?
如下图,可以根据不同的规则配置告警信息.
5.7 如何只跑flow中的某个作业?
如下图,下来列表中的job点击相应的run即可,在某个作业跑挂了,修复数据是方便。
5.8关于flow执行的一些有用的配置
- **Page View:(重要)**作业的执行视图,可知设置哪些作业执行哪些不执行
- Notification:设置邮件通知,在workfow执行成功或者失败时都可以设置邮件通知
- **Failure Option:(重要)**某个作业执行失败时操作,生产上选择Cancel All,kill所有的作业不管跑没跑
- concurrent:设置工作流的并发
- Flow Parameters:设置工作流的参数,覆盖是全局的setting
总结:
- 以上是Azkaban的安装以及简单使用的过程,无论是学习还是生产使用都是有很大的帮助,
- 对于生产上Oozie与Azkaban的选择,个人倾向于更加轻量简单的后者
- 两种工作流框架都是有个致命的缺点,不能完全的面向用户,若用户能够在页面拖拽拉实现flow的配置那就更加的完美了,故大公司都是自研工作流框架。