Hadoop安装部署之伪分布模式
Hadoop有三种安装模式:
本地模式——>本地模式配置
伪分布模式——>伪分布模式
全分布模式
一.伪分布模式
特点:在单机上,模拟一个分布式的环境,具备Hadoop的所有功能
HDFS:NameNode + DataNode + SecondaryNameNode
Yarn:ResourceManager + NodeManager
1.配置伪分布模式:
2.
更改JAVA_HOME路径:vi hadoop-env.sh
配置参数:JAVA_HOME
在第25行更改: /root/training/jdk1.8.0_144
3.
hdfs-site.xml
<!--配置数据块的冗余度,默认是3-->
<!--原则冗余度跟数据节点个数保持一致,最大不要超过3-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!--是否开启HDFS的权限检查,默认是true-->
<!--使用默认值,后面会改为false-->
<!--
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
-->
(*)在configuration中间更改配置文件
4.
core-site.xml
<!--配置HDFS主节点的地址,就是NameNode的地址-->
<!--主机名+9000是RPC通信的端口-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata111:9000</value>
</property>
<!--HDFS数据块和元信息保存在操作系统的目录位置-->
<!--默认是Linux的tmp目录,一定要修改-->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/training/hadoop-2.7.3/tmp</value>
</property>
注意:Linux的tmp目录,一定要修改,因为Linux的tmp目录会重启清空,所以要在hadoop创一个tmp目录
(*)在configuration中间更改配置文件
5.
mapred-site.xml(默认没有这个文件)
<!--MR程序运行容器或者框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
注意:由于默认没有这个文件mapred-site.xml,需要生成mapred-site.xml
(*)在configuration中间更改配置文件
6.
yarn-site.xml
<!--配置Yarn主节点的位置-->
<!--写主机名或IP地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata111</value>
</property>
<!--NodeManager执行MR任务的方式是Shuffle洗牌-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
在configuration中间更改配置文件
7.对HDFS的NameNode进行格式化 ————>目录:/root/training/hadoop-2.7.3/tmp (在这个目录生成一些信息,来保持即将要生成的数据,这种叫元信息)
举例:软盘,需要格式化
格式化命令:hdfs namenode -format
怎么查看格式化生成?
看日志:Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted. 有这句就说明格式化成功。
用tree命令查看格式化生成了什么
(*)启动命令:
HDFS:start-dfs.sh
Yarn: start-yarn.sh
统一的:start-all.sh
Web Console访问:hdfs: 端口: 50070
yarn: 端口:8088