全分布式模式搭建
全分布式模式,主要是在实际环境中用到的比较多,所以小编还是将使用虚拟机来模拟环境来搭建环境。对与学习而已,伪分布式模式环境就可以满足,大家可以参考《Hadoop-伪分布式模式搭建》这篇文章搭建就可以了。
在搭建环境前,需要先关闭防火墙。由于JDK环境的搭建与前面都是一样,所以小编就不在这里啰嗦,直接从Hadoop文件配置开始写步骤。
小编的环境:
主机名和IP
192.168.184.12 bigdata12
192.168.184.13 bigdata13
192.168.184.14 bigdata14
1.设置hadoop_env.sh
# The java implementation to use.
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/root/training/jdk1.8.0_144
2.设置hdfs-site.xml
<!--数据块的冗余度,默认是3-->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<!--是否开启HDFS的权限检查,默认:true-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
3.设置core-site.xml
<!--NameNode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata12:9000</value>
</property>
<!--HDFS数据保存的目录,默认是Linux的tmp目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/training/hadoop-2.7.3/tmp</value>
</property>
4.设置mapred-site.xml
<!--MR程序运行的容器是Yarn-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
5.设置yarn-site.xml
<!--ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata12</value>
</property>
<!--NodeManager运行MR任务的方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
6.设置slavers(配置的是全部的从节点)
bigdata13
bigdata14
7.格式化NameNode:
hdfsnamenode -format
配置完上面的步骤后,将Hadoop文件目录直接复制到bigdata13和bigdata14上。
8.启动Hadoop集群(在主节点上):
start-all.sh
9、验证
(*)命令行:hdfsdfsadmin -report
(*)网页:HDFS:http://192.168.184.12:50070/
Yarn:http://192.168.184.12:8088
上述步骤为全分布式环境的搭建,由于后续学习过程中,不使用全分布式模式,所以只提供一个搭建环境的文章,后续在工作中,如遇到问题,可以与小编一起探讨。