将数据从json保存到orc的Apache nifi问题

问题描述:

我正在使用NIFI jsontoavro-> avrotoorc-> puthdfs。但面临以下问题。将数据从json保存到orc的Apache nifi问题

1)单个ORC文件正在保存在HDFS上。我没有使用任何压缩。 2)当我尝试访问这些文件时,他们给出了像缓冲存储器一样的错误。

感谢您的帮助。

+0

我在追加文件时遇到了这个问题。为单个记录创建ORC可以正常工作。 –

您应该在ConvertAvroToORC之前合并许多Avro记录。

在ConvertAvroToORC之前,您可以通过使用MergeContent将模式设置为Avro来完成此操作。

您也可以使用MergeContent将您的JSON合并到一起,然后将合并的JSON发送到ConvertJsonToAvro。

使用PutHDFS追加到已经在HDFS中的ORC文件将不起作用。 HDFS处理器不知道数据格式的任何内容,只是将附加的原始字节写入文件,并可能会创建无效的ORC文件。

+0

是的,布赖恩这是确切的问题。 –