Hadoop伪分布式安装
写在前面:
Hadoop在window和linux等系统上也是可以运行的,但是,我们一般情况下是选择在linux系统中,毕竟linux系统相对来说更安全一些。本次安装环境也是在linux centos7中
前期准备工作
本次安装采用的是桥接模式
- 修改主机名
[[email protected] ~]# hostname
l
[[email protected] ~]# hostnamectl set-hostname l4
[[email protected] ~]#
2.更换节点ip为静态ip,以及网关,子网掩码 dns等等
Note:必须和windows在同一个网段上,但是ip地址不能够相同
[[email protected] ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
3.修改ip地址的映射关系
[[email protected] ~]# vim /etc/hosts
4.在window的配置:
打开host文件 进行linux虚拟机ip地址与名称的映射
5.关闭防火墙(禁止开机启动):
对于防火墙,其实关闭也可以只需要开放hadoop的端口即可,但是简单粗暴一些,关闭防火墙可以省去很多的力气以及不必要的麻烦。
[r[email protected] ~]# systemctl status firewalld.service
JDK环境的配置
对于JDK配置,在这里不做过多的赘述,相信大家在学习java的时候就接触到了。下面是java环境配置成功的截图:
1.下载Hadoop安装包
我目前所接触到的下载Hadoop安装包方式有俩种:
1.点击网址archive.apache.org
顾名思义,这个网址有很多Apache项目的安装包,比如,hive,hbase,spark等等。
部分截图:
选择hadoop下载可以了,
2.第二种下载的方式就是去官网下载,在百度上搜索hadoop进入其官网点击download进行下载。
我这里选择的hadoop的版本是hadoop-2.7.4
2.解压
将下载好的hadoop安装包进行解压
tar -zxvf /hadoop-2.7.4.tar.gz -C /ldj/hadoop/
3.配置文件
hadoop的配置安装共需要配置五个配置文件,并且这些配置文件都是在下面的目录下,点击进入:
[[email protected] hadoop]# cd /ldj/hadoop/hadoop-2.7.4/etc/hadoop/
hadoop-env.sh文件
1.配置java路径
export JAVA_HOME=/ldj/jdk/jdk1.8.0_181
在这里教大家一个技巧:
当我们需要在配置文件配置文件路径的时候,可以按Esc 键和“:”“ 之后 输入r!eho 路径 接着按回车 路径直接到指定地方下面
如图:
core-site.xml
1.图中第一个name value :
指定文件系统 为 l4:9000 在l4这个节点上,
9000是hdfs 的fileSystem的默认端口
下面补充了hdfs几个比较常见的端口
端口号 | 作用 |
---|---|
8020 | namenode节点active状态下的端口号(完全分布式) |
50070 | namenode端口号 |
50090 | namenode的secondarynamenode的端口号 |
2图中第二个name value 指定hadoop 的临时文件位置
其实tmp文件是非常重要的,很多重要的hadoop集群的东西。
比如 hdfs 的block clusterid 等等.当我们启动hdfs发现没有DataNode或者namenode节点时,我们可以把tmp的文件夹下的对应的文件删了重新启动,或者直接删除tmp 重新格式化
hdfs-site.xml
由于字啊这里只是配置伪分布式,所以只是配置一下副本数量,默认副本数量为3个
通过命令可以修改 hadoop fs -setrep -R 3 /
但是需注意的是,如果我们的datanode节点小于副本数量,对于的副本是不会生效的
查看当前副本数
hadoop fsck -locations
mapred-site.xml
首先将模板文件改名或者复制一份
[[email protected] hadoop]# mv mapred-site.xml.template mapred-site.xml
次文件配置mapreduce 为yarn方式,因此,需要主要的是,使用mapreduce进行编程的时候,切记开启yarn
yarn-site.xml
此文件主要对yarn进行配置
第一个 name value :指定yarn老大resourcemanager的地址
第二个name value : reducer 获取数据方式 采用shuffle
修改slave
.ssh]# vim /ldj/hadoop/hadoop-2.7.4/etc/hadoop/slaves
l5 l6是 DataNode节点
此文件的主要作用是指定datanode的位置
配置环境变量
[[email protected] hadoop]# vim /etc/profile
ssh免登录
[[email protected] ~]# ssh-****** -t rsa
之后按四下enter键
依次对各个节点进行如下命令:
最好各个节点可以互相免密通信
[[email protected] ~]# ssh-copy-id l4
分发各个节点
将前面已经配置好的hadoop
文件分发各个节点
[[email protected] ~]# scp -r /ldj/hadoop/ @l6:/ldj/
格式化namenode
[[email protected] ~]# hdfs namenode -format
启动hadoop
[[email protected] ~]# start-dfs.sh
[[email protected] ~]# start-yarn.sh
进行验证
浏览器验证: