猪步执行细节

问题描述:

我是猪的新宠。猪步执行细节

我已经写了一个小猪脚本,在我第一次加载数据从两个不同的表,并进一步右外连接两个表,后来我也有两个不同的st表的数据连接。罚款。但我想看到 的执行步骤,就像在哪一步我的数据加载的方式,我可以注意到时间 需要加载后数据加入步骤的详细信息,如多少时间是 考虑这些记录要加入。

基本上我想知道我的猪脚本的哪个部分需要更长的时间运行,所以 这样我可以进一步优化我的猪脚本。

无论如何,我们可以在脚本中println,并找到哪些步骤已经执行,哪些已经开始执行。

通过jobtracker的详细信息链接我无法获得太多的信息,只能看到映射器正在运行& reducer正在运行,但脚本的哪个部分正在运行的idealy映射器找不到那个。

例如,对于配置单元作业运行,我们可以在jobtracker详细信息中看到哪些步骤当前正在执行。

任何信息将非常有用。

在此先感谢。

我建议你看看以下内容:

;另一方面,在执行脚本之后,你可以看到每个别名的执行时间的详细统计数据(见:作业统计(以秒为时间))。

看一看EXPLAIN operator。这不会为您的代码执行时提供实时统计信息,但它会为您提供有关脚本生成的MapReduce计划的足够信息,以便您可以将MR作业与脚本中的步骤进行匹配。

另外,在脚本运行时,您可以检查Hadoop作业的配置。看看变量“pig.alias”和“pig.job.feature”。这分别告诉你,你的哪个别名(表/关系)涉及该作业以及正在使用哪些Pig操作(例如,HASH_JOIN用于步骤JOIN步骤,SAMPLER或ORDER BY用于ORDER BY步骤,等等)。此信息也可用于完成后输出到控制台的作业统计信息。

+0

非常感谢你,我会进一步尝试上述选项。 – user1278493 2013-03-18 06:03:21

+0

我不敢相信我之前没有找到EXPLAIN运算符!另请参阅ILLUSTRATE命令。 http://pig.apache.org/docs/r0.14.0/test.html – Arel 2015-05-02 20:40:19