如何在hdfs上使用hadoop流式传输数据集grep
问题描述:
我有一个巨大的数据集躺在hdfs中,我想grep一些术语。什么是haddop streaming命令相同? (请参阅我不;吨要使用PIG)如何在hdfs上使用hadoop流式传输数据集grep
答
你可以使用这个命令: -
Hadoop的罐子{} path_to_jar /hadoop-streaming.jar -Dmapreduce.job.queuename =默认-Dstream。非输出/ tmp/{输入路径} '
谢谢,它的工作!只是好奇--Dstream.non.zero.exit.is.failure = false在这里做了什么? – ravi
没有这个映射器将失败,无论这个搜索条件没有找到 – sorabh