StreamSets 从传统关系型数据库Mysql到Hbase的实时数据采集(初试)

最近在研究StreamSets,因为它官网的标题就是处理复杂数据流,就想试一下,做了几个简单Demo之后,发现从传统关系型数据库到Hbase貌似经过很简单的操作就可以做到实时的数据采集:

1、

首先不管是什么环境,一定要先装好StreamSets,我用的的是CDH,直接在StreamSets的官网下载对应版本的parcel包,在CDH离线安装就可以了

StreamSets 从传统关系型数据库Mysql到Hbase的实时数据采集(初试)

2、

直接进入StreamSets的web端,登陆,下图是一个简单测试实例,从Mysql到Hbase抽数据的例子,注意左上角的时间,这个任务已经跑了17个小时,这是他一直在做抽数据的操作,也就是这时候我在mysql相应表插入一条数据后,会被实时抽到hbase,并且注意下面的报表图,他会对你的抽入抽出有很详细的报表展现,包括Error的监控

StreamSets 从传统关系型数据库Mysql到Hbase的实时数据采集(初试)


3、

接下来肯定就是要关心数据的抽取时的配置了,配置很简单,Mysql端配置好JDBC 连接,按格式写好sql就可以了,Hbase端配置好Zooker队列,配置好字段映射(注意格式就可以了)


我现在测试的结果是小数据量完全支持实时,大数据量高并发还要进一步考究!StreamSet支持的组件很多也很全,如果测试通过,完全可以是数据流控制的利器!