StreamSets的简单使用
StreamSets的简单使用
环境: StreamSets 3.14.0 kudu 1.7.0-cdh5.16.2
1. 创建一个directory2kudu的Pipline
2. 在Pipline流程中添加Directory作为源并配置基础信息
- 配置Kudu的Master、Table、Operation等
- Kudu Masters:可以配置多个data info是什么格式,多个地址以“,”分割
- Table Name:如果使用Impala创建的Kudu表则必须添加impala::前缀
- Field to Column Mapping:配置Json中key与Kudu表的column的映射关系,如果字段名称一致则不需要配置。
- Default Opertation:设置操作类型如:insert、upsert、delete
3)设置kudu的master, 目标表的表名, kuduTable的字段
1) 这会儿再对Directory配置修改一下(为JavaScript做准备工作):
配置数据格式化方式,由于数据文件是以“\u0001”分割因此选择CSV方式
Root Field Type选择为List,为会每行数据转换成List<Map<String, String>>格式的数据。
3) 在JavaScript配置项选择处理数据的方法为Batch by Batch
4) 配置数据解析代码,在Script配置项增加如下代码片段
总结:
- 通过StreamSets可以便捷的指定的数据目录进行数据收集,可以在Directory模块上配置文件的过滤规则、采集频率或者数据的格式化方式。
- StreamSets的Directory模块会将数据文件的数据以行为单位解析传输,通过List或着Map的方法封装
- 通过Process提供的JavaScript Evaluator模块来进行数据剖析转换为可Kudu接收大数据格式。