在Amazon EC2上运行hadoop作业:多节点群集

问题描述:

我必须在Amazon EC2群集上运行hadoop mapreduce作业。在Amazon EC2上运行hadoop作业:多节点群集

我试着用现有的AMI进行设置。但是启动主服务器和客户端后,“jps”不会列出任何节点。

即使在使用公共hadoop AMI后,我们是否必须为主人和奴隶做hadoop设置?主人将如何知道奴隶的IP地址?

任何人都可以请直接给我一些很好的文件。 我在这个问题上敲了12个多小时。

任何人都可以请帮忙吗?

谢谢。

我会使用亚马逊的Elastic MapReduce框架来代替。您可以动态旋转机器上下的机器,并且您不必担心配置它们彼此交谈。

http://aws.amazon.com/elasticmapreduce/

它使用的很多人,这是大多可靠。它将为您节省通常用于设置和管理群集的绝对TON工作量。只有一件事与常规hadoop不同 - 最好是将事物放入S3而不是HDFS(因为群集是瞬态的,所以HDFS数据随群集一起消失)。

+0

很好的答案。应该注意的是,弹性MR比在ec2集群上设置自己稍微贵一点,如果集群足够大,这可能会加起来。 – Lostsoul

+2

只有在不使用spot-instances的情况下才会这样。专业提示:使您节点的1/2节点定价TASK节点,您将节省大量资金。 –

+0

ahhh我从来不知道那..感谢马修。你救了我一些钱! – Lostsoul

Matthew建议的另一种替代方法是使用Whirr。

Whirr使在Amazon上部署Hadoop集群变得非常简单,而且您不必为mapreduce instaces付费。你可以控制集群的版本。

这里的项目主页: http://whirr.apache.org/

下面是安装Hadoop的快速入门指南。运行Hadoop集群需要5分钟的时间。 http://whirr.apache.org/docs/0.6.0/quick-start-guide.html

+1

良好的联系。在过去的12个月里,Whirr已经变成了一个可行的选择。 –