hadoop集群配置(二,多点)

单点配置成功后尝试在虚拟机上的多点配置。首先把上次搭建的master节点用VMware复制出一个data节点
之后对节点的IP等信息进行配置
参考书籍:hadoop+spark大数据巨量分析与机器学习  林大贵 ,配套博客:
http://blog.sina.com.cn/hadoopsparkbook,不得不说一下,虽说是配套的安装代码,但是格式一团糟,内容甚至和书都不一致,作为一个作者,太不负责了。看了很久也不知道配置的具体含义,又摸索了大半天,再下一篇集群配置里有总结。

因为hadoop集群通过http进行数据传输,所以在集群内部要用静态IP,查看VMware可知,一切host only模式下的IP段为:192.168.56.XXX   
hadoop集群配置(二,多点)
这样的话,设计集群的信息如下:

master  192.168.138.100   充当hdfs中的namenode角色,yarn中的
data1    192.168.138.101   

data2    102  data3  103        

先修改data1的信息:  etc/network/下面的interface文件:
# interfaces(5) file used by ifup(8) and ifdown(8)
auto lo
iface lo inet loopback
# NAT interface
auto ens33
iface ens33 inet static
address     192.168.138.101
netmask     255.255.255.0
network     192.168.138.0
broadcast   192.168.138.255
gateway     192.168.138.2
dns-nameservers 192.168.138.1
其中的138是虚拟机的NAT模式下的子网IP, 配置的时候应该注意            ens33是虚拟机ifconfig看到的网卡名称。
hadoop集群配置(二,多点)


编辑hostname主机名   etc / hostname     也要先改权限。  把名字改成data1

改完之后要设置hosts文件,把主机名和IP映射起来
hadoop集群配置(二,多点)
在之后要和单点一样,设置 core-site  yarn-site hdfs-site  mapred-site  .xml
core-site:hadoop集群配置(二,多点)
yarn-site:

<property>
<name>yarn.resourcemanager.resource-tracker.address
</name>
<value>master:8025
</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address
</name>
hadoop集群配置(二,多点)

<value>master:8030
</value>
</property>
<property>
<name>yarn.resourcemanager.address
</name>
<value>master:8050
</value>
</property>
mapreduce-site.xml:
hadoop集群配置(二,多点)

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:54311</value>
</property>
</configuration>

hdfs-site.xml:
hadoop集群配置(二,多点)

只作为datanode就不用设置namenode了

<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>
</property>
</configuration>
重新启动,用ifconfig,确认data1的网卡信息和之前设计的相符,完成一个点的配置,此篇篇幅有点长,再写一篇继续