ETL任务调度—ETL工具的灵魂功能
前有实施上线ETL(设计ETL任务),后有ETL的N个任务的高效管理,对N 个 ETL模块化管理即运维是整个项目投入人力、时间、精力 刚刚启动,不可控成本随之而来......上线ETL项目及用户感同身受,只有经历过才有发言权。所以ETL任务调度是ETL工具灵魂......
概念:ETL任务 \ ETL任务调度
ETL任务——用于定义数据的抽取,转换及装载规则。
ETL任务调度—简称ETL调度,用于控制ETL任务的启动运行(启动时间、运行周期及触发条件),实现数据的传输转换操作。
ETL调度按照功能复杂度分为 简单定时调度 和 工作流调度 二种方式:
(一)、定时调度用于控制ETL任务按照某一时间属性周期运行,如:在每个工作日的19点启动交易数据采集任务 或 每月1号启动报表数据汇总任务。定时调度难以处理多个相关ETL任务间的依赖关系,也无法有效处理ETL异常。对于某些不具备定时调度功能的ETL软件可以采用操作系统提供的定时功能,如Linux的cron调度、Windows的任务计划程序。
(二)、工作流调度采用模块化方法对ETL过程各个环节进行协同管理,将ETL整个过程分解为多个数据处理子任务,子任务间采用顺序、并行或互斥等时序关系进行调度控制,当ETL过程需要变更时,仅需重新配置相关子任务或子任务间时序关系,无需对整个过程进行调整,简化了ETL过程管理,
工作流调度包含以下基本功能:
- 支持顺序、并发、互斥等工作模式
- 支持周期性定时触发任务
- 支持任务异常处理
- 支持任意程序调用执行
- 支持任务间传递信息
北京灵蜂 ETL工具( Beeload & BeeDI )内置定时调度与工作流调度功能,提供简单直观的图形操作界面,满足各种不同规模的数据集成场景,软件除具备上述工作流调度基本功能外,依据ETL数据集成特点进行如下功能扩展:
- 支持ETL任务的一站式图形化配置管理
- 内置HTTP、FTP文件传输功能
- 内置SMTP邮件通知功能
- 支持任意外部程序调用时的超时处理
- 支持自定义脚本任务,无限扩展流程功能
- 支持集群环境的子任务负载均衡、单点故障迁移
- 提供运行轨迹指示,实时反馈子任务运行状态
Beeload & BeeDI 任务调度 界面(一)
BeeDI 工作流调度 界面(二)
BeeDI 定时调度 界面(三)
Beeload & BeeDI 任务调度 界面(四)