如何在hdfs上使用hadoop流式传输数据集grep

问题描述：

我有一个巨大的数据集躺在hdfs中，我想grep一些术语。什么是haddop streaming命令相同？（请参阅我不;吨要使用PIG）如何在hdfs上使用hadoop流式传输数据集grep

答

你可以使用这个命令： -

Hadoop的罐子{} path_to_jar /hadoop-streaming.jar -Dmapreduce.job.queuename =默认-Dstream。非输出/ tmp/{输入路径} '

谢谢，它的工作！只是好奇--Dstream.non.zero.exit.is.failure = false在这里做了什么？ – ravi

没有这个映射器将失败，无论这个搜索条件没有找到 – sorabh