Kettle实现Hdfs资源的上传下载

一、资源库Repository Manager

将写好的作业/转换存储在Mysql中,方便共享。

Kettle实现Hdfs资源的上传下载

 

二、配置连接

配置Hadoop集群版本环境,Pdi 9.1使用的hdp3.0和cdh 6.1

Kettle实现Hdfs资源的上传下载

Kettle实现Hdfs资源的上传下载

 

 

三、转换

3.1下载集群资源

3.1.1Hive表输入

配置Hive表输入:集群为刚才配置好的,选择对应表+sql 即可

Kettle实现Hdfs资源的上传下载

3.1.2文本输出,保留到本地

Kettle实现Hdfs资源的上传下载

Kettle实现Hdfs资源的上传下载

最终会在指定的路径生成文件。

 

3.2上传资源到集群

3.2.1文本输入

 

Kettle实现Hdfs资源的上传下载

Kettle实现Hdfs资源的上传下载

 

Kettle实现Hdfs资源的上传下载

Kettle实现Hdfs资源的上传下载

3.2.1Hdfs文件上传

Kettle实现Hdfs资源的上传下载

Kettle实现Hdfs资源的上传下载

四、作业

将关联的转换连接即可,还可实现成功失败邮箱定时等功能

Kettle实现Hdfs资源的上传下载

五、备注

5.1变量

Kettle实现Hdfs资源的上传下载

Kettle实现Hdfs资源的上传下载

5.2分隔符与封闭符

分隔符切分字段,输入转为文本时,需注意字段中是否有含与分隔符格式内容

封闭符若为”,则”abcdef”后会自动取出abcdef,会导致丢失我们需要的””

5.3CSV格式

该格式有利于字段匹配,但最终输出需记得把表头去除