Kettle 导入文件夹下的多个文件
收到的需求是这样的:在一个文件夹下有几百个文本文件,每个文件内容的格式相同,都是有固定分隔符的两列,每个文件有几千行记录。
Kettle的转换处理数据流,其中有一个“文本文件输入”的输入对象,可以使用它在导入文件数据时添加上文件名字段,而且支持正则表达式同时获取多个文件名,正好适用此场景。下面为实现步骤。
1. 新建一个转换,包含“获取文件名”、“拆分字段2”、“拆分字段”、“表输出”四个步骤,如下图所示。
2. “文本文件输入”如下图所示。 正则表达式^test.+ 意思是查找以test开头的文件。
3.拆分字段,按照 | 将字段field_1拆成field_000和field_111
4.拆分字段,按照: 将字段field_000拆成field_001和field_002
5.表输出
6.启动运行