StreamSets的简单使用

​​​​​​​StreamSets的简单使用

环境: StreamSets 3.14.0    kudu 1.7.0-cdh5.16.2

1. 创建一个directory2kudu的Pipline

StreamSets的简单使用StreamSets的简单使用

StreamSets的简单使用

2. 在Pipline流程中添加Directory作为源并配置基础信息

添加: Directory

StreamSets的简单使用

添加配置信息:

1)读取文件的路径

2)文件类型

StreamSets的简单使用

StreamSets的简单使用

预览模式:

StreamSets的简单使用

预览效果:

StreamSets的简单使用

3. 在Pipline流程中添加Kudu并配置基础信息

  • 配置Kudu的Master、Table、Operation等
  • Kudu Masters:可以配置多个data info是什么格式,多个地址以“,分割
  • Table Name:如果使用Impala创建的Kudu表则必须添加impala::前缀
  • Field to Column Mapping:配置Json中key与Kudu表的column的映射关系,如果字段名称一致则不需要配置。
  • Default Opertation:设置操作类型如:insert、upsert、delete

1) 添加kudu

StreamSets的简单使用

2)设置kudu版本

StreamSets的简单使用

3)设置kudu的master, 目标表的表名, kuduTable的字段

StreamSets的简单使用

StreamSets的简单使用

4. 在Pipline流程中配置JavaScript信息

StreamSets的简单使用

StreamSets的简单使用

 1) 这会儿再对Directory配置修改一下(为JavaScript做准备工作):

StreamSets的简单使用

2)配置文件分隔符等信息

StreamSets的简单使用

配置数据格式化方式,由于数据文件是以“\u0001分割因此选择CSV方式

Root Field Type选择为List,为会每行数据转换成List<Map<String, String>>格式的数据。

StreamSets的简单使用

3) 在JavaScript配置项选择处理数据的方法为Batch by Batch

StreamSets的简单使用

4) 配置数据解析代码,在Script配置项增加如下代码片段

StreamSets的简单使用

总结:

  1. 通过StreamSets可以便捷的指定的数据目录进行数据收集,可以在Directory模块上配置文件的过滤规则、采集频率或者数据的格式化方式。
  2. StreamSets的Directory模块会将数据文件的数据以行为单位解析传输,通过List或着Map的方法封装
  3. 通过Process提供的JavaScript Evaluator模块来进行数据剖析转换为可Kudu接收大数据格式。