ETL中kettle组件功能学习(一)

kettle连接说明

kettle 有两种方式连接资源库,一种是纯数据库式,所有的转换全部都保存在一个数据库中;另外一种连接方式是使用文本文件,也就是xml 文件,在做完任何转换之后,我们都可以把转换或者Job 变成xml 文件输出。

组件介绍

kettle组件分为转换和作业,而转换和作业中分为输入组件,输出组件,中转组件。

输入:

1、Access Input
2、Cube Input
3、Excel 输入
4、Generate random value
5、Get File Names
6、Get Files Rows Count
7、Get SubFolder names
8、Get data from XML
9、Mondrian Input
10、Propperty Input
11、XBase输入
12、文本文件输入
13、表输入
14、获取系统信息
15、CSV file input

输出:

1、Access Output
2、Cube输出
3、Excel Output
4、Property Output
5、SQL File Output
6、XML输出
7、删除
8、文本文件输出 (CSV文件输出,将分隔符改为“,”)
9、表输出

转换:

1、增加常量 用来给查询增加常量列
2、增加序列 用来给查询增加序列列
3、字段选择 用来选择输出字段
4、拆分字段 将某字段按照某个分隔符分割为多个字段
5、排序记录 按照某些字段对记录进行排序
6、Number range 不同范围输出不同的值
7、Add a checksum md5加密等
8、Replace in string 替换字段值为其他值
9、去除重复记录 使用之前所有记录必须已有序
10、值映射
11、Unique rows(HashSet)
12、计算器 对字段值进行+、-、*、/、平方、开放、四舍五入等数学计算以及时间计算。

Flow:

1、过滤记录
2、Switch/Case

查询:

1、数据库查询(多表关联时使用,无关联时只使用表输入即可)

连接

1、记录关联(笛卡尔输出) 将多个表记录关联起来(笛卡尔积,不是表连接)

脚本

1、Modified Java Script Value

今日所学组件功能:csv文件数据传输到数据库中

ETL中kettle组件功能学习(一)
ETL中kettle组件功能学习(一)