Azure HDInsight:hadoop集群中的头节点是什么?

问题描述:

我刚刚在HDInsight中设置了Hadoop集群,并试图开始使用Hadoop。我已启用集群上的远程登录并登录到它。我已将要处理的数据从我的桌面复制到此框中。该文档将此框称为头节点,并具有将数据复制到hadoop群集的附加步骤。这使我困惑。Azure HDInsight:hadoop集群中的头节点是什么?

我有以下问题:

  1. 当我复制从桌面到数据我登录到禁区,didnt它实际上的数据复制到Hadoop的?

  2. 第一次复制操作与第二次复制操作有什么不同?

  3. 什么是Hadoop中的头节点?

+0

只是好奇你为什么没有把答案标记为正确的答案。有什么缺失?我发现问题和答案相当丰富。 –

HDInsight集群中的头节点是机器运行组成Hadoop平台的一些服务,包括名称节点和作业跟踪器。广义地说,控制数据的位置以及计算分别发生在哪里。

要使用HDInsight,您并不需要登录到此头节点,并且您不需要需要才能使用远程桌面来使用它。我建议使用PowerShell的方法http://blogs.msdn.com/b/carlnol/archive/2013/06/07/managing-your-hdinsight-cluster-with-powershell.aspx为您提供了一个很好的指导来建立。

就复制数据到集群而言,这与将数据复制到头节点(这只是一台机器)不同。设置HDInsight群集时,还可以将其链接到Azure存储帐户。您需要将数据上传到Blob存储帐户,以使其可以访问群集。有一些很好的工具可以帮助解决这个问题,我建议Azure Explorer - 披露:我为制作它的人工作,但它是免费的:)。

+0

名称节点和作业跟踪器都在同一个盒子上运行?这在典型的hadoop基础设施中通常如此?另外,拥有多个名称节点以避免单点故障并不常见? HDInsight不适合这个吗? – Aadith

+0

您当然可以将名称节点和作业跟踪器分开,并且可能应该根据群集的规模,但对于HDInsight中合理大小的事情,可以。可以有一个辅助名称节点,它是一种热备份,但在Hadoop版本

+0

谢谢。对Hadoop来说很新,并且试图基本上在Azure上运行第一次运行。我正在阅读Hadoop,特别是Namenodes和Datanodes。这些分别与Azure的Head Nodes和Worker Nodes相同吗? (此外:关闭主题,但如果有人对初学者有任何好的文档,我会非常感激,迄今为止没有运气。) – kuanb