基础环境配置以及 Hadoop 伪分布式 分布式的实现

VMware 12 安装与**

首先打开安装包
基础环境配置以及 Hadoop 伪分布式 分布式的实现
点击下一步
基础环境配置以及 Hadoop 伪分布式 分布式的实现
更改一下安装路径 再点下一步
基础环境配置以及 Hadoop 伪分布式 分布式的实现
取消用户体验勾选 点击下一步
基础环境配置以及 Hadoop 伪分布式 分布式的实现
点击 安装

基础环境配置以及 Hadoop 伪分布式 分布式的实现
点击 许可证
基础环境配置以及 Hadoop 伪分布式 分布式的实现
我们输入**码5A02H-AU243-TZJ49-GTC7K-3C61N
基础环境配置以及 Hadoop 伪分布式 分布式的实现
这样就安装完成了

CentOS 7 安装

打开安装好的VMware workstation
基础环境配置以及 Hadoop 伪分布式 分布式的实现
点击 创建新的虚拟机
基础环境配置以及 Hadoop 伪分布式 分布式的实现
这里我们选择自定义
基础环境配置以及 Hadoop 伪分布式 分布式的实现
下一步
基础环境配置以及 Hadoop 伪分布式 分布式的实现
稍后安装操作系统
基础环境配置以及 Hadoop 伪分布式 分布式的实现
选择Linux
基础环境配置以及 Hadoop 伪分布式 分布式的实现
自定义虚拟机名称以及安装位置 注意 虚拟机名称影响到之后的配置文件改动

基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现这两个配置看个人电脑配置选择
低配就默认 高配可以做修改
基础环境配置以及 Hadoop 伪分布式 分布式的实现
使用网络地址转换(NAT)
基础环境配置以及 Hadoop 伪分布式 分布式的实现
默认LSI Logic(L)
基础环境配置以及 Hadoop 伪分布式 分布式的实现
默认SCSI(S)
基础环境配置以及 Hadoop 伪分布式 分布式的实现
创建新虚拟磁盘
基础环境配置以及 Hadoop 伪分布式 分布式的实现
将虚拟磁盘拆分为多个文件(M)
基础环境配置以及 Hadoop 伪分布式 分布式的实现
下一步
基础环境配置以及 Hadoop 伪分布式 分布式的实现
自定义硬件
基础环境配置以及 Hadoop 伪分布式 分布式的实现
左侧 选择光驱
右侧 勾选 使用ISO映像文件(M)
之后点击 浏览 选择CentOS 7 的映像文件位置
关闭
基础环境配置以及 Hadoop 伪分布式 分布式的实现
完成
基础环境配置以及 Hadoop 伪分布式 分布式的实现
我们打开虚拟机
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
以上默认确定
基础环境配置以及 Hadoop 伪分布式 分布式的实现
语言选择中文
基础环境配置以及 Hadoop 伪分布式 分布式的实现
进去之后会加载一小会儿 之后我们选择 网络与主机名进行设置
基础环境配置以及 Hadoop 伪分布式 分布式的实现
打开右侧的开关 改一下主机名 记一下IP地址 点击应用
基础环境配置以及 Hadoop 伪分布式 分布式的实现
点击 开始安装
基础环境配置以及 Hadoop 伪分布式 分布式的实现
自行设置root用户及密码
基础环境配置以及 Hadoop 伪分布式 分布式的实现
安装完成后点击 重启 查看是否成功
基础环境配置以及 Hadoop 伪分布式 分布式的实现
安装成功界面

secureCRT 安装 以及新建session

打开安装包
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现

基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
安装完成后不运行程序,复制压缩包中的Kg_ttrar.exe程序到安装目录。
运行Kg_ttrar.ex,点击Patch按钮两次,分别加载两个默认文件,对源程序(即所安装程序的主程序)打补丁。如下所示:
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
现在启动secureCRT
基础环境配置以及 Hadoop 伪分布式 分布式的实现
Enter License Data
基础环境配置以及 Hadoop 伪分布式 分布式的实现
留白
基础环境配置以及 Hadoop 伪分布式 分布式的实现
点击左下角的手动输入
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
以上三步均按照补丁程序上的输入
基础环境配置以及 Hadoop 伪分布式 分布式的实现
完成安装
打开secureSRT
左上角 file quick connect
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
Hostname 为之前安装CentOS 7 时的 IP 地址
基础环境配置以及 Hadoop 伪分布式 分布式的实现
session name随意 点击完成
基础环境配置以及 Hadoop 伪分布式 分布式的实现
双击刚才建好的session
基础环境配置以及 Hadoop 伪分布式 分布式的实现
输入root用户密码 勾选记住密码
基础环境配置以及 Hadoop 伪分布式 分布式的实现
连接成功(若失败 检查虚拟机有无启动)
基础环境配置以及 Hadoop 伪分布式 分布式的实现
修改外观:【Options】→【Session Options】→【Appearance】→【Font】选择字体
【Character encoding】选择 UTF-8

JDK+Hadoop 安装配置

以下操作在SecureCRT里面完成
1.关闭防火墙
firewall-cmd --state 显示防火墙状态running/not running
systemctl stop firewalld 临时关闭防火墙,每次开机重新开启防火墙
systemctl disable firewalld 禁止防火墙服务

2.传输JDK和HADOOP压缩包
SecureCRT 【File】→【Connect SFTP Session】开启sftp操作
put jdk-8u121-linux-x64.tar.gz
put hadoop-2.7.3.tar.gz
可用put 命令 也可以直接拖拽传输

3.解压JDK、HADOOP
tar -zxvf jdk-8u121-linux-x64.tar.gz -C /opt/module 解压安装
tar -zxvf hadoop-2.7.3.tar.gz -C /opt/module 解压安装

4.配置JDK并生效
vi /etc/profile文件添加:
export JAVA_HOME=/opt/module/jdk1.8.0_121
export PATH=JAVAHOME/bin:JAVA_HOME/bin:PATH
Esc :wq!保存并退出。不需要配置CLASSPATH。
source /etc/profile配置生效
运行命令javac,检验是否成功。

5.配置HADOOP并生效
vi /etc/profile文件添加:
export HADOOP_HOME=/opt/module/hadoop-2.7.3
export PATH=HADOOPHOME/bin:HADOOP_HOME/bin:HADOOP_HOME/sbin:$PATH
Esc :wq!保存并退出。
source /etc/profile配置生效
运行命令hadoop,检验是否成功。

6.单机模式配置hadoop -env.sh
vi /opt/module/hadoop-2.7.3/etc/hadoop/hadoop-env.sh文件修改
显示行号 Esc :set number 取消行号Esc :set nonumber
修改第25行export JAVA_HOME=/opt/module/jdk1.8.0_121
Esc :wq!保存并退出
本地模式没有HDFS和Yarn,配置JDK后MapReduce能够运行java程序。

7.运行自带程序wordcount
cd /opt/module/hadoop-2.7.3/share/hadoop/mapreduce 转入wordcount所在路径。
运行touch in.txt,创建In.txt文件,作为输入文件。
(如果in.txt是空文件,运行vi in.txt,输入内容作为被统计词频的输入文件)
输出目录/output必须不存在,程序运行后自动创建。
运行wordcount:
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount in.txt output/
运行成功之后,进入/output目录,打开文件part-r-00000查看计数结果。

Hadoop伪分布式模式配置
只有一台虚拟机bigdata128,既是namenode又是datanode。
一、基础安装配置
完成上述1-5安装配置。
二、修改以下5个配置文件
在与之间添加如下property:
①core-site.xml

fs.defaultFS hdfs://bigdata128:9000 hadoop.tmp.dir /opt/module/hadoop-2.7.3/tmp ②hdfs-site.xml dfs.replication 1 dfs.namenode.secondary.http-address bigdata128:50090 ③mapred-site.xml(该配置文件不存在,先复制) cp mapred-site.xml.template mapred-site.xml mapreduce.framework.name yarn ④yarn-site.xml yarn.resourcemanager.hostname bigdata128 yarn.nodemanager.aux-services mapreduce_shuffle ⑤Slaves文件里使用默认localhost,或者添加 bigdata128(既是NameNode又是DataNode) 注:如果Slaves文件为空,就没有DataNode和NodeManager。 ⑥修改\etc\hosts配置文件 运行命令 vi \etc hosts 注释掉已有内容,添加虚拟机的ip及对应主机名: 192.168.163.128 bigdata128 ⑦修改\etc\hostname配置文件 运行命令 vi \etc hostname 添加虚拟机的主机名: bigdata128 重启虚拟机,主机名生效。

三、格式化
hdfs namenode -format (如果不是第一次格式化,格式化之前先删除/opt/module/hadoop-2.7.3/下面的tmp、logs两个目录)

四、启动
start-all.sh (如果启动之前已经启动过,启动之前先停止stop-all.sh
查看伪分布式配置是否成功:
①执行ll,查看/opt/module/hadoop-2.7.3/tmp/dfs目录,如下图所示,则正确。
②执行jps,如下图所示,NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager如果全部启动,伪分布式配置成功。
③web控制台访问:http://192.168.163.128:50070http://192.168.163.128:8088

五、运行wordcount
hdfs dfs -put in.txt /adir 上传本地当前路径下的in.txt文件 到hdfs的/adir目录下。
运行hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /adir/in.txt output/。
在http://192.168.163.128:50070 查看/user/root/output/part-r-00000文件里的词频统计结果。
六、SSH免密码登陆(解决每次启动hadoop输入用户密码问题)
生成公、私**对:ssh-****** -t rsa 按3次回车键
查看:cd ~/.ssh路径下面的rd_rsa和rd_rsa.pub
复制:ssh-copy-id -i ~/.ssh/id_rsa.pub [email protected]
查看生成authorized_keys。

Hadoop完全分布式模式配置

一、新建另外两台Linux虚拟机
完全分布式模式共三台虚拟机,前述伪分布式的虚拟机(bigdata128)作为master主节点,克隆另外两个虚拟机(bigdata129、bigdata131)作为slaves子节点,克隆机自带安装JDK、Hadoop及配置文件。
注:此配置是为学习所用,且电脑资源有限,因此照搬伪分布式配置,将NameNode、SecondaryNameNode、ResourceManager全部配置在主节点bigdata128上面,实际情况则相反,应该分别配置在不同的节点上面。

二、修改以下配置文件
①slaves配置文件
三台虚拟机分别都运行命令 vi /opt/module/hadoop-2.7.3/etc/hadoop slaves
修改slaves为:
bigdata129
bigdata131
②修改\etc\hosts配置文件
三台虚拟机分别都运行命令 vi \etc hosts
注释已有内容,添加集群三台虚拟机的ip及对应主机名:
192.168.163.128 bigdata128
192.168.163.129 bigdata129
192.168.163.131 bigdata131

③修改\etc\hostname配置文件
三台虚拟机分别都运行命令 vi \etc hostname
添加各自的主机名bigdata128或者bigdata129或者bigdata130。
重启全部虚拟机,主机名生效。

三、格式化
在主节点bigdata128上面输入格式化命令(hdfs namenode -format),格式化集群。
注:如果不是第一次格式化,三台虚拟机都删除\opt\module\hadoop-2.7.3\下面的tmp、logs目录:rm –rf \opt\module\hadoop-2.7.3\tmp rm –rf \opt\module\hadoop-2.7.3\logs
注:如果格式化之前启动过集群,先在主节点bigdata128上面停止集群(stop-all.sh),再格式化。

四、启动集群
在主节点bigdata128上面输入启动命令(start-all.sh),启动集群。
注:如果启动之前启动过集群,先在主节点bigdata128上面停止集群(stop-all.sh),再启动。
启动正常,输入jps命令,显示如下:
基础环境配置以及 Hadoop 伪分布式 分布式的实现
启动正常jps显示3台主机如上如下
基础环境配置以及 Hadoop 伪分布式 分布式的实现
web控制台访问:http://192.168.163.128:50070http://192.168.163.128:8088
页面正常显示,则成功。

五、运行wordcount
hdfs dfs -put in.txt /adir 上传本地当前路径下的in.txt文件 到hdfs的/adir目录下。
运行hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /adir/in.txt output/。
在http://192.168.163.128:50070 查看/user/root/output/part-r-00000文件里的词频统计结果。
如下图所示:
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现

克隆虚拟机

先关闭被克隆虚拟机,【虚拟机(M)】→【管理(M)】→【克隆©】
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
基础环境配置以及 Hadoop 伪分布式 分布式的实现
完成克隆

以上均仿照老师给的教程做的