如何在hdfs上使用hadoop流式传输数据集grep

问题描述:

我有一个巨大的数据集躺在hdfs中,我想grep一些术语。什么是haddop streaming命令相同? (请参阅我不;吨要使用PIG)如何在hdfs上使用hadoop流式传输数据集grep

你可以使用这个命令: -

Hadoop的罐子{} path_to_jar /hadoop-streaming.jar -Dmapreduce.job.queuename =默认-Dstream。非输出/ tmp/{输入路径} '

+0

谢谢,它的工作!只是好奇--Dstream.non.zero.exit.is.failure = false在这里做了什么? – ravi

+0

没有这个映射器将失败,无论这个搜索条件没有找到 – sorabh