在Amazon EC2上运行hadoop作业：多节点群集

问题描述：

我必须在Amazon EC2群集上运行hadoop mapreduce作业。在Amazon EC2上运行hadoop作业：多节点群集

我试着用现有的AMI进行设置。但是启动主服务器和客户端后，“jps”不会列出任何节点。

即使在使用公共hadoop AMI后，我们是否必须为主人和奴隶做hadoop设置？主人将如何知道奴隶的IP地址？

任何人都可以请直接给我一些很好的文件。我在这个问题上敲了12个多小时。

任何人都可以请帮忙吗？

谢谢。

答

我会使用亚马逊的Elastic MapReduce框架来代替。您可以动态旋转机器上下的机器，并且您不必担心配置它们彼此交谈。

它使用的很多人，这是大多可靠。它将为您节省通常用于设置和管理群集的绝对TON工作量。只有一件事与常规hadoop不同 - 最好是将事物放入S3而不是HDFS（因为群集是瞬态的，所以HDFS数据随群集一起消失）。

很好的答案。应该注意的是，弹性MR比在ec2集群上设置自己稍微贵一点，如果集群足够大，这可能会加起来。 – Lostsoul

只有在不使用spot-instances的情况下才会这样。专业提示：使您节点的1/2节点定价TASK节点，您将节省大量资金。 –

ahhh我从来不知道那..感谢马修。你救了我一些钱！ – Lostsoul

答

Matthew建议的另一种替代方法是使用Whirr。

Whirr使在Amazon上部署Hadoop集群变得非常简单，而且您不必为mapreduce instaces付费。你可以控制集群的版本。

这里的项目主页： http://whirr.apache.org/

下面是安装Hadoop的快速入门指南。运行Hadoop集群需要5分钟的时间。 http://whirr.apache.org/docs/0.6.0/quick-start-guide.html

良好的联系。在过去的12个月里，Whirr已经变成了一个可行的选择。 –