在Hadoop中使用哪种协议将数据从映射器复制到Reducers?

在Hadoop中使用哪种协议将数据从映射器复制到Reducers?

问题描述:

我对Hadoop框架用于将映射器输出(本地存储在映射器节点上)复制到reducer任务(未在同一节点上运行)的传输协议有疑问。 - 阅读一些使用HTTP进行Shuffle阶段的博客 - 同时读取HDFS数据传输(由mapreduce作业使用)直接使用TCP/IP套接字完成。 - 阅读关于Hadoop权威指南中的RPC。在Hadoop中使用哪种协议将数据从映射器复制到Reducers?

任何指针/参考将有很大的帮助。

Hadoop使用HTTPServlets进行中间数据混洗。参见下面的图(Wang等人从JVM-Bypass for Efficient Hadoop Shuffling拍摄。): Intermediate data shuffling in Hadoop

仔细对待看看“JVM-绕道高效Hadoop的洗牌”的工作发表在2013年(full-text available)。