Mapreduce - 确认文件是否被拆分的正确方法

问题描述:

我们有很多xml文件,并且我们想要使用一个映射器任务来处理一个xml文件,因为显而易见的原因使得处理(解析)更简单。Mapreduce - 确认文件是否被拆分的正确方法

我们写了一个mapreduce程序,通过重载isSplitable方法来实现输入格式class.It似乎工作正常。

但是,我们想确认一个映射器是否用于处理一个xml文件。有一种方法可以通过查看驱动程序或任何其他方式产生的日志来进行确认。

谢谢

要回答你的问题,只需检查映射计数。 它应该等于您输入文件的数量。

实施例:

/ds/input 
    /file1.xml 
    /file2.xml 
    /file3.xml 

然后,映射器计数应为3

+0

谢谢回来,即使只有一个映射器,它是真的吗? – Nag

+0

是的。如果只有一个输入分割由您的'InputFormat'类创建,则只会有一个映射器。 – sras

这里是命令。

mapred job -counter job_1449114544347_0001 org.apache.hadoop.mapreduce.JobCounter TOTAL_LAUNCHED_MAPS 

您可以使用mapred job -counter命令获取许多详细信息。您可以从playlist查看视频54和55。它涵盖了柜台的细节。