Kettle实现Hdfs资源的上传下载
一、资源库Repository Manager
将写好的作业/转换存储在Mysql中,方便共享。
二、配置连接
配置Hadoop集群版本环境,Pdi 9.1使用的hdp3.0和cdh 6.1
三、转换
3.1下载集群资源
3.1.1Hive表输入
配置Hive表输入:集群为刚才配置好的,选择对应表+sql 即可
3.1.2文本输出,保留到本地
最终会在指定的路径生成文件。
3.2上传资源到集群
3.2.1文本输入
3.2.1Hdfs文件上传
四、作业
将关联的转换连接即可,还可实现成功失败邮箱定时等功能
五、备注
5.1变量
5.2分隔符与封闭符
分隔符切分字段,输入转为文本时,需注意字段中是否有含与分隔符格式内容
封闭符若为”,则”abcdef”后会自动取出abcdef,会导致丢失我们需要的””
5.3CSV格式
该格式有利于字段匹配,但最终输出需记得把表头去除