kettle在win系统中抽取cdh上的数据

环境

• windows 10系统
• cdh集群 (版本号是5.13)

步骤

1下载kettle
官方下载地址:https://sourceforge.net/projects/pentaho/files/latest/download?aliId=137249511
镜像网站:http://mirror.bit.edu.cn/pentaho/Data%20Integration/
我的是5.13版本的cdh集群所以选择8.1.0.0版本的kettle,直接解压到自己想要的软件就可以使用

打开kettle

在windows环境中,找到spoon.bat文件双击运行就可以打开软件。打开的速度有点慢,耐心等待。
在windows环境中,找到spoon.bat文件双击运行就可以打开软件。打开的速度有点慢,耐心等待。
kettle在win系统中抽取cdh上的数据
kettle在win系统中抽取cdh上的数据
属性介绍
Cluster name 自己设置的名称
Storage :存储的类型
Hdfs hostname :hdfs的地址端口号不用修改
Username:服务器的登录用户名称。
Password:服务器的登录密码。
Jobtracker:hdfs的地址端口号不用修改
zookeeper hostname hdfs的地址端口号不用修改
oozie:hdfs的地址端口号修改为11000(cdh集群上这样设计的)
kafka:hdfs的地址端口号为9092

我们还要修改\data-integration\plugins\pentaho-big-data-plugin\plugin.properties中active.hadoop.configuration=cdh513,这样我们就可以使用大数据上的东西了。

使用kettle出现的问题

1、 再连接数据库时
mysql数据库我选择mysql-connector-java-5.1.47-bin.jar的jar包放入data-integration\lib文件下就解决了。
mysql数据库我选择ojdbc6-11.2.0.1.0.jar的jar包放入data-integration\lib文件下就解决了。
根据自己的实际环境决定。
2、 出现中文乱码后在spoon.bat文件中jvm的参数后面添加-Dfile.encoding=utf-8就可以解决。
3、 配置hadoop的时候会出现User home directory access 报错:
尝试一下在hdfs的根目录下的user文件夹下面创建一个自己windows系统用户的文件夹,例如在hdfs上有一个/user/windows系统用户名称 这个文件夹。
4、 verify user home permission 这个地方出现问题
data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh513
在这个文件夹中找到config.properties文件,打开之后
末尾添加
authentication.superuser.provider=NO_AUTH
最后重启kettle
参考网址:https://www..com/article/5974371985/