kettle简单入门总结

kettle简单入门总结

Kettle概念

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle组成

kettle简单入门总结

运行

在windows中执行spoon.bat,在Lunix系统中执行spoon.sh
Spoon是一个图形设计工具,用来设计和测试数据交换处理流程,也可以通过命令行(终端)执行处理流程。
在spoon中设计作业和转换,kettle提供两种方式存储:资源库和文件;
如果你选择资源库,spoon第一次启动时需要创建资源库;选择文件方法,作业保存文件是的扩展名是KJB,转换文件的扩展名为KTR,为了简化学习,下面教程采用后者。
kettle简单入门总结

示例

Kettle使用
Kettle提供了资源库方式的方式来整合所有的工作,但是因为资源库移植不方便,所以我们选择没有资源库;
1)创建一个新的转换,点击 保存到本地路径,例如保存到E:\安装包\kettle定时任务下,保存文件名为T_SSJ_JBXX,kettle默认转换文件保存后后缀名为ktr;
2)创建一个新的job,点击 保存到本地路径,例如保存到E:\安装包\kettle定时任务下,保存文件名为T_SSJ_JBXX,kettle默认job文件保存后后缀名为kjb;

1.建立转换
在文件->新建装换
新建转换后在左边的主对象树中建立DB连接用以连接数据库。如图所示:
kettle简单入门总结
建立数据库连接的过程与其他数据库管理软件连接数据库类似。
  注意:在数据库链接的过程中,可能会报某个数据库连接找不到的异常。那是因为你没有对应的数据库链接驱动,请下载对应驱动后,放入kettle的lib文件夹。
kettle简单入门总结

  1. 简单的数据表插入\更新
    (1)新建表插入
    在左边的面板中选择“核心对象”,在核心对象里面选择“输入→表输入”,用鼠标拖动到右边面板。如图所示:
      kettle简单入门总结
      双击拖过来的表,可以编辑表输入。
      选择数据库连接和编辑sql语句,在这一步可以点击预览,查看自己是否连接正确。
      (2)通过表输出输出到表。
    在左边面板中选择核心对象、选择“输出→表输出”如图所示:
    kettle简单入门总结
    编辑插入更新:
      首先:表输入连接表输出。
      选中表输入,按住shift键,拖向表输出。

然后:双击表输出,编辑它。

到这里基本上,这个转换就要做完了,可以点击运行查看效果,看是否有误,这个要先保存了才能运行,可以随意保存到任何一个地方。

  1. 建立作业
    使用作业可以定时或周期性的执行转换,新建一个作业。并从左边面板拖入start 和转换。

双击start可以编辑,可以设置执行时间等等
kettle简单入门总结
点开装换,可以设置需要执行的转换任务,比如可以执行上面我们做的转换,XXX.ktr

最后点击运行即可。
 到这里,一个简单的通过作业调度的kettle就算做完了。

(在运行作业时可能会遇到违反违反唯一约束条件 ,此时需要把转换的裁剪表选上,则成功运行)
kettle简单入门总结