Azkaban3.57.0安装以及简单使用

1.为啥什么要使用WorkFlow?

生产中ETL、以及HIve sql等作业都是通过shell命令触发运行的,我们知道Linux有自带的Crontab调度器,通过它可以进行简单作业的调度,但是对于一些依赖的作业,比如作业B依赖于作业A完成后才能开始,这是Crontab很难去配置了,因为配置Crontab人根本不知道作业具体是何时完成的,全凭经验感觉,这是不可取的。此时我们需要Work Flow来规划好作业的执行调度。
市场主流的工作流有两种:Oozie以及Azkzban

2.常用工作流对比

  • Oozie:重量级的,不推荐使用,开发需要写一堆XML配置,非常的麻烦
  • Azkzban:轻量级的,推荐使用,具有很好的WEBUI交互设计,但是也是比较难用,部分功能需要自定义开发,如无短信通知功能。

3.Azkaban简介

  • 首先它不是apache项目,但属于开源项目,官网地址:https://azkaban.github.io/
  • 它是用于运行hadoop生态圈相关作业的批量工作流调度器,主要用于解决作业间的依赖问题,它提供了一个良好的Web操作界面。
  • 两种部署模式:无论哪一种部署模式都会包含所有的特性
solo-server mode :单机模式,内置了H2数据库,web和executor服务运行在一个进程上,可用于测试,本次测试部署的是单机模式,
multiple-executor mode:集群模式,DB使用的是有主备的mysql,升级维护不影响使用,用于生产
  • 具体特性可参考官网

4.安装Azkabab

安装以3.57.0版本的Azkabab需要有jdk1.8、gradle、git环境,gradle是类似于maven一样的jar依赖管理工具。

4.1下在安装包
  • 下载Azkabab:前往github,注意不要选择pre-XXX开头的版本包,这里我选的是最新的3.57.0
    Azkaban3.57.0安装以及简单使用
  • 下载gradle: 官网地址,我这里下载的是4.6版本
    Azkaban3.57.0安装以及简单使用
4.2配置gradle安装包
#解压
[[email protected] gradle-4.6]$ cd ~/soft/
[[email protected] soft]$ tar -zxvf ~/soft/azkaban-3.57.0.tar.gz -C ~/source/

#使用gradlew编译时会自动下载的gradle,但是太慢了,我们选择手动下载然后拷贝到wrapper目录
[ha[email protected] ~]$ cp ~/soft/gradle-4.6-all.zip ~/source/azkaban-3.57.0/gradle/wrapper/
[[email protected] ~]$ cd ~/source/azkaban-3.57.0/gradle/wrapper/
[[email protected] wrapper]$ ll
total 104284
-rw-r--r--. 1 hadoop hadoop 106724289 May  2 19:49 gradle-4.6-all.zip
-rw-rw-r--. 1 hadoop hadoop     54708 Sep  5  2018 gradle-wrapper.jar
-rw-rw-r--. 1 hadoop hadoop       736 May  2 19:47 gradle-wrapper.properties

#修改distributionUrl配置
[[email protected] wrapper]$ vim gradle-wrapper.properties 
distributionUrl=gradle-4.6-all.zip
4.3安装git
#注意使用root
[[email protected] ~]$ yunm install -y git
[[email protected] ~]# git --version
git version 1.7.1
4.4编译以及安装

编译命令:./gradlew build installDist -x test,-x test表示跳过测试,跳过测试可大大降低编译所需要的时间。

#编译,编译需要下载依赖的包,故需要等待会儿
[[email protected] ~]# cd /home/hadoop/source/azkaban-3.57.0
[[email protected] azkaban-3.57.0]# ./gradlew build installDist -x test

#若遇到如下异常
FAILURE: Build failed with an exception.
 What went wrong:
Execution failed for task ':az-crypto:test'.
> There were failing tests. See the report at: file:///home/hadoop/source/azkaban-3.57.0/az-crypto/build/reports/tests/test/index.html
#通过查阅子资料分析得知,缺少了jce,下载地址:https://www.oracle.com/technetwork/cn/java/javase/downloads/jce8-download-2133166-zhs.html ,解压并放在jre相关目录
[[email protected] soft]# unzip jce_policy-8.zip
[[email protected] soft]# cd UnlimitedJCEPolicyJDK8/
[[email protected] UnlimitedJCEPolicyJDK8]# ll
total 16
-rw-rw-r--. 1 root root 3035 Dec 21  2013 local_policy.jar
-rw-r--r--. 1 root root 7323 Dec 21  2013 README.txt
-rw-rw-r--. 1 root root 3023 Dec 21  2013 US_export_policy.jar
[[email protected] soft]# cp UnlimitedJCEPolicyJDK8/* /usr/java/jdk1.8.0_45/jre/lib/security/

#重新编译
[[email protected] azkaban-3.57.0]# ./gradlew build installDist -x test

#查看部署包,azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz为单机部署的包
[[email protected] azkaban-3.57.0]$ cd azkaban-solo-server/build/distributions/
[[email protected] distributions]$ ll
total 46752
-rw-rw-r--. 1 hadoop hadoop 23870855 May  2 20:10 azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz
-rw-rw-r--. 1 hadoop hadoop 24001502 May  2 20:10 azkaban-solo-server-0.1.0-SNAPSHOT.zip

#解压
[[email protected] distributions]$ mv azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz ~/soft/
[[email protected] distributions]$ cd ~/soft/
[[email protected] soft]$ tar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz -C ~/app/

#启动,注意要在安装目录启动,踩坑
[[email protected] azkaban-solo-server-0.1.0-SNAPSHOT]$ bin/start-solo.sh
[[email protected] azkaban-solo-server-0.1.0-SNAPSHOT]$ jps
19345 AzkabanSingleServer
19362 Jps

#关闭命令
[[email protected] azkaban-solo-server-0.1.0-SNAPSHOT]$ bin/shutdown-solo.sh

#(可选操作)修改配置文件,修改首页显示信息
azkaban.name=WskTest
azkaban.label=Wsk study Azkaban

#(可选操作)修改配置文件,添加登录的用户wsk
  <user password="123456" roles="admin" username="wsk"/>

5.简单使用Azkabab

Azkabab的主页地址:http://localhost:8081/

5.1创建项目

创建了一个personal类型项目,名称为wsktestProject
Azkaban3.57.0安装以及简单使用
Azkaban3.57.0安装以及简单使用

5.2创建一个简单flow

一个flow是由.project以及.flow两个文件构成

  • 编辑flow20.project文件
azkaban-flow-version: 2.0
  • 编辑basic.flow,basic则是flow的名称配置具体作业信息,作业名jobA,作业的类型命令,作业配置,执行的命令
nodes:
  - name: jobA
    type: command
    config:
      command: echo "This is an echoed text." >> /home/hadoop/data/azkabantest/job1.txt
  • 将作业的文件夹打zip包上传到Azkaban
    Azkaban3.57.0安装以及简单使用
    Azkaban3.57.0安装以及简单使用
  • 运行flow,succeeded表示运行成功
    Azkaban3.57.0安装以及简单使用
    Azkaban3.57.0安装以及简单使用
    Azkaban3.57.0安装以及简单使用
    比较奇怪,我的文件并没有输出到文本中,但是我换了一个其它命令是可以运行的。
5.2创建一个多job的flow
  • 编辑flow文件
nodes:
  - name: jobC
    type: noop
    # jobC depends on jobA and jobB
    dependsOn:
      - jobA
      - jobB

  - name: jobA
    type: command
    config:
      command: echo "This is an echoed text."

  - name: jobB
    type: command
    config:
      command: pwd

type:noop表示无操作,dependson表示作业的依赖关系

  • 编辑project文件
azkaban-flow-version: 2.0
  • 运行flow,succeeded表示运行成功,下图是作业间的依赖关系
    Azkaban3.57.0安装以及简单使用
5.3创建一个wc的MR任务的flow

wc使用的是hadoop自带的example的jar包

  • 编辑flow文件
nodes:
  - name: jobA
    type: command
    config:
      command: /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/bin/hadoop jar /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount file:///home/hadoop/data/azkabantest/word.txt file:///home/hadoop/data/azkabantest/output1

type:noop表示无操作,dependson表示作业的依赖关系

  • 编辑project文件
azkaban-flow-version: 2.0
  • 将文件夹打zip包上传运行。WC是MR任务,运行时启动是需要一定时间的
  • 查看结果
[[email protected] azkabantest]$ ll output1/
total 4
-rw-r--r--. 1 hadoop hadoop 65 May  3 00:27 part-r-00000.bz2
-rw-r--r--. 1 hadoop hadoop  0 May  3 00:27 _SUCCESS
[[email protected] azkabantest]$ vim output1/part-r-00000.bz2
hao     2
he      1
hello   1
hellow  1
ni      1
word    3 、       
5.4 如何修改已经上传的flow

如下图选择job然后选择edit,这样我们就可以不通过重新压缩就可更改job作业
Azkaban3.57.0安装以及简单使用
Azkaban3.57.0安装以及简单使用

5.5 如何给flow添加调度

如下图,可非常方便的为flow添加相应的调度
Azkaban3.57.0安装以及简单使用
Azkaban3.57.0安装以及简单使用
Azkaban3.57.0安装以及简单使用

5.6 如何给调度配置邮箱告警

如下图,可以根据不同的规则配置告警信息.
Azkaban3.57.0安装以及简单使用
Azkaban3.57.0安装以及简单使用

5.7 如何只跑flow中的某个作业

如下图,下来列表中的job点击相应的run即可,在某个作业跑挂了,修复数据是方便。
Azkaban3.57.0安装以及简单使用

5.8关于flow执行的一些有用的配置

Azkaban3.57.0安装以及简单使用

  • **Page View:(重要)**作业的执行视图,可知设置哪些作业执行哪些不执行
  • Notification:设置邮件通知,在workfow执行成功或者失败时都可以设置邮件通知
  • **Failure Option:(重要)**某个作业执行失败时操作,生产上选择Cancel All,kill所有的作业不管跑没跑
  • concurrent:设置工作流的并发
  • Flow Parameters:设置工作流的参数,覆盖是全局的setting

总结:

  • 以上是Azkaban的安装以及简单使用的过程,无论是学习还是生产使用都是有很大的帮助,
  • 对于生产上Oozie与Azkaban的选择,个人倾向于更加轻量简单的后者
  • 两种工作流框架都是有个致命的缺点,不能完全的面向用户,若用户能够在页面拖拽拉实现flow的配置那就更加的完美了,故大公司都是自研工作流框架。