阿帕奇卡夫卡消费者花费很长时间

问题描述:

Consumer-transformationProducer-transformation阿帕奇卡夫卡消费者花费很长时间

目的: 转移表(120个表)从Oracle数据库Vertica的数据库。

目前的做法: 使用Pentaho的工具来提取从Oracle数据库数据,并存储为文件并重新加载它们到Vertica的数据库。

问题: 整个过程运行很长时间。 将其存储为文件占用更多空间并降低性能。

新方法: 使用Kafka作为消息系统及其在pentaho中的插件。

问题面临: 消费者插件花费的时间量庞大用于消耗消息并装载到Vertica的表(采取加载消息到生产者6倍的时间)。 1架Avro格式 2. 200列

样品2万条记录,我们想听听建议,以改善这个性能或暗示任何其他方式来满足使用卡夫卡的目标。

+0

你在使用Pentaho 7吗? – AlainD

+0

是的,我正在使用pentaho 7.1 – Anjana

This document建议使用Vertica Bulk Loader步骤,直接在Oracle Table input之后。

+0

我需要添加少量列,并在加载到Vertica之前对我的源数据进行一些更改,以便在输入表格后立即添加Vertica Bulk Loader步骤。 – Anjana

+0

但是,在我所有的更改和列的添加之后尝试了Vertica Bulk Loader,但性能仍然几乎相同。详情请参阅屏幕截图 – Anjana