卡夫卡生产者读取本地Linux文件夹
问题描述:
我正在写一个卡夫卡生产者
它必须从本地Linux文件夹读取数据并写入我的主题
是否可以这样做?卡夫卡生产者读取本地Linux文件夹
什么是我的代码片段这里(斯卡拉)
商业案例 -
实时数据将在本地的Linux文件夹中的此CSV文件的形式被写入 - /数据/ DATA01 /制药/ 2017/
如何将这些数据移动到我创建的主题?
我的消费者将读取这些数据,并添加到星火流数据帧进行处理
答
实时数据将在本地Linux文件夹写入
有很多框架,让您处理这
那些我所知道的卡夫卡连接
- Filebeat
- Spark Streaming
- Flume
- Apache Nifi
- Kafka Connect与FileStreamConnector这是由汇合平台启用
点是,不要重新发明负有写不必要的风险车轮(也可能是错误的)代码。
答
如果你想读一个单一的文件,然后
cat ${file} | bin/kafka-console-producer.sh --broker-list localhost:9092 --topic my_topic
如果文件是动态创建的,那么你需要监视他们,并喂它kafka-console-producer.sh
Spark Streaming可以观看本地文件目录。无论你想要做什么,都可以达到Spark API的极限......所以是的,有一个卡夫卡制片人api –
没问题。感谢您的评论/回复。但我的要求是 - 实时处理..所以数据将被写入本地linux文件夹。所以卡夫卡制片人会读相同的卡夫卡消费者,(使用spark会处理相同的内容)我不能在制作人中产生火花(我可以);关于如何满足这个要求的任何建议(或者我错过了一些非常基本的东西)..我在这里是新手。 –
星火绝对可以成为生产者和消费者... –