Kettle入门精选-常用组件

可视化ETL工具——Kettle

ETL(Extract-Transform-Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)到目的端的过程。ETL一次较常用在数据仓库,但其对象并不限于数据仓库

Kettle介绍

对于企业或行业应用来说,经常会遇到各种数据的处理,转换,迁移,掌握一种etl工具的使用,必不可少,这里要学习的ETL工具是——Kettle,现在已经更名为PDI。

  • Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装
  • Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出
  • Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做

Kettle入门案例

入门案例将从多个方面演示kettle最基础的文件转换操作以及包含对数据库表数据和Hadoop集群文件操作

csv - excel

需求:把数据从csv文件抽取到excel文件
Kettle入门精选-常用组件Kettle入门精选-常用组件Kettle入门精选-常用组件
Kettle入门精选-常用组件

Json - excel

需求:将json文件的数据抽取到excel中
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件

MySQL - excel

需求:将MySQL数据库中的user表中的数据抽取到excel文件中
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件

生成数据 - excel

需求:在excel文件中插入1000条记录:id为1,name为zhangsan,age为18
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件

MySQL - 文本

需求:从mysql数据库的test库中的t_user表抽取数据到文本文件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件

Json - MySQL

  • Json输出就是把数据写入指定的表
    Kettle入门精选-常用组件
    Kettle入门精选-常用组件
    Kettle入门精选-常用组件
    Kettle入门精选-常用组件
    Kettle入门精选-常用组件
    Kettle入门精选-常用组件
    Kettle入门精选-常用组件
    Kettle入门精选-常用组件

Json - MySQL

需求:从Json中读取数据,并插入或更新到MySQL数据库中的t_user_1表中
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件

MySQL删除数据

需求:从MySQL数据库的t_user_1表中删除指定id的数据
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件

集成大数据

Kettle整合Hadoop读取HDFS文件的准备工作.
Kettle整合Hive读取Hive中表数据准备工作.

HDFS - excel

需求:从Hadoop文件系统中读取1.txt文件,把数据输出到excel中
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
保证图中右侧1、3、5、7、9项为对勾
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件

Json - HDFS

需求:读取user.json把数据写入hdfs文件系统的/hadoop/test/2.txt中
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件

集成Hive

准备大数据Hive环境,创建数据表加载数据
Kettle入门精选-常用组件
启动hive服务
hive --service metastore -p 9083 &
hive --service hiveserver2 &

hive - excel

需求:将hive表中的数据读取到excel中
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件

excel - Hive

需求:读取excel数据保存到hive数据库
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件

执行Hive SQL脚本

需求:聚合查询a表表中a字段大于1的数据,同时建立一个新表new_a保存查询数据
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件
Kettle入门精选-常用组件