Hadoop伪分布式安装

写在前面:

Hadoop在window和linux等系统上也是可以运行的,但是,我们一般情况下是选择在linux系统中,毕竟linux系统相对来说更安全一些。本次安装环境也是在linux centos7中

前期准备工作

本次安装采用的是桥接模式

  1. 修改主机名
[[email protected] ~]# hostname
l
[[email protected] ~]# hostnamectl set-hostname l4
[[email protected] ~]# 

2.更换节点ip为静态ip,以及网关,子网掩码 dns等等
Note:必须和windows在同一个网段上,但是ip地址不能够相同

[[email protected] ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33 

Hadoop伪分布式安装
3.修改ip地址的映射关系

[[email protected] ~]# vim /etc/hosts

Hadoop伪分布式安装
4.在window的配置:
打开host文件 进行linux虚拟机ip地址与名称的映射
Hadoop伪分布式安装
Hadoop伪分布式安装
5.关闭防火墙(禁止开机启动):
对于防火墙,其实关闭也可以只需要开放hadoop的端口即可,但是简单粗暴一些,关闭防火墙可以省去很多的力气以及不必要的麻烦。

[r[email protected] ~]# systemctl status firewalld.service

Hadoop伪分布式安装
Hadoop伪分布式安装

JDK环境的配置

对于JDK配置,在这里不做过多的赘述,相信大家在学习java的时候就接触到了。下面是java环境配置成功的截图:
Hadoop伪分布式安装

1.下载Hadoop安装包

我目前所接触到的下载Hadoop安装包方式有俩种:
1.点击网址archive.apache.org
顾名思义,这个网址有很多Apache项目的安装包,比如,hive,hbase,spark等等。

部分截图:Hadoop伪分布式安装
选择hadoop下载可以了,
2.第二种下载的方式就是去官网下载,在百度上搜索hadoop进入其官网点击download进行下载。

我这里选择的hadoop的版本是hadoop-2.7.4

2.解压

将下载好的hadoop安装包进行解压

 tar -zxvf /hadoop-2.7.4.tar.gz -C /ldj/hadoop/

3.配置文件

hadoop的配置安装共需要配置五个配置文件,并且这些配置文件都是在下面的目录下,点击进入:

[[email protected] hadoop]# cd /ldj/hadoop/hadoop-2.7.4/etc/hadoop/

hadoop-env.sh文件

1.配置java路径

export JAVA_HOME=/ldj/jdk/jdk1.8.0_181

在这里教大家一个技巧:
当我们需要在配置文件配置文件路径的时候,可以按Esc 键和“:”“ 之后 输入r!eho 路径 接着按回车 路径直接到指定地方下面

如图:
Hadoop伪分布式安装Hadoop伪分布式安装

core-site.xml

1.图中第一个name value :
指定文件系统 为 l4:9000 在l4这个节点上,
9000是hdfs 的fileSystem的默认端口
下面补充了hdfs几个比较常见的端口

端口号 作用
8020 namenode节点active状态下的端口号(完全分布式)
50070 namenode端口号
50090 namenode的secondarynamenode的端口号

2图中第二个name value 指定hadoop 的临时文件位置
其实tmp文件是非常重要的,很多重要的hadoop集群的东西。
比如 hdfs 的block clusterid 等等.当我们启动hdfs发现没有DataNode或者namenode节点时,我们可以把tmp的文件夹下的对应的文件删了重新启动,或者直接删除tmp 重新格式化

Hadoop伪分布式安装

hdfs-site.xml

由于字啊这里只是配置伪分布式,所以只是配置一下副本数量,默认副本数量为3个
通过命令可以修改 hadoop fs -setrep -R 3 /
但是需注意的是,如果我们的datanode节点小于副本数量,对于的副本是不会生效的
查看当前副本数
hadoop fsck -locations
Hadoop伪分布式安装

mapred-site.xml

首先将模板文件改名或者复制一份

[[email protected] hadoop]# mv  mapred-site.xml.template mapred-site.xml

次文件配置mapreduce 为yarn方式,因此,需要主要的是,使用mapreduce进行编程的时候,切记开启yarn

yarn-site.xml

此文件主要对yarn进行配置
第一个 name value :指定yarn老大resourcemanager的地址
第二个name value : reducer 获取数据方式 采用shuffle
Hadoop伪分布式安装

修改slave

.ssh]# vim /ldj/hadoop/hadoop-2.7.4/etc/hadoop/slaves 

l5 l6是 DataNode节点
此文件的主要作用是指定datanode的位置
Hadoop伪分布式安装

配置环境变量

[[email protected] hadoop]# vim /etc/profile

Hadoop伪分布式安装

ssh免登录

[[email protected] ~]# ssh-****** -t rsa

之后按四下enter键
Hadoop伪分布式安装
依次对各个节点进行如下命令:
最好各个节点可以互相免密通信

[[email protected] ~]# ssh-copy-id l4

Hadoop伪分布式安装

分发各个节点

将前面已经配置好的hadoop
文件分发各个节点

[[email protected] ~]# scp -r /ldj/hadoop/ @l6:/ldj/

格式化namenode

[[email protected] ~]# hdfs namenode -format

启动hadoop

[[email protected] ~]# start-dfs.sh 
[[email protected] ~]# start-yarn.sh 

进行验证

Hadoop伪分布式安装
Hadoop伪分布式安装
浏览器验证:
Hadoop伪分布式安装
Hadoop伪分布式安装