StreamSets的简单使用

环境: StreamSets 3.14.0 kudu 1.7.0-cdh5.16.2

1. 创建一个directory2kudu的Pipline

StreamSets的简单使用

2. 在Pipline流程中添加Directory作为源并配置基础信息

添加: Directory

StreamSets的简单使用

添加配置信息:

1)读取文件的路径

2)文件类型

StreamSets的简单使用

预览模式:

StreamSets的简单使用

预览效果:

StreamSets的简单使用

3. 在Pipline流程中添加Kudu并配置基础信息

1) 添加kudu

StreamSets的简单使用

2)设置kudu版本

StreamSets的简单使用

3)设置kudu的master, 目标表的表名, kuduTable的字段

StreamSets的简单使用

4. 在Pipline流程中配置JavaScript信息

StreamSets的简单使用

1) 这会儿再对Directory配置修改一下(为JavaScript做准备工作):

StreamSets的简单使用

2)配置文件分隔符等信息

StreamSets的简单使用

配置数据格式化方式，由于数据文件是以“\u0001”分割因此选择CSV方式

Root Field Type选择为List，为会每行数据转换成List<Map<String, String>>格式的数据。

StreamSets的简单使用

3) 在JavaScript配置项选择处理数据的方法为Batch by Batch

StreamSets的简单使用

4) 配置数据解析代码，在Script配置项增加如下代码片段

StreamSets的简单使用

总结: