基础环境配置以及 Hadoop 伪分布式 分布式的实现
VMware 12 安装与**
首先打开安装包
点击下一步
更改一下安装路径 再点下一步
取消用户体验勾选 点击下一步
点击 安装
点击 许可证
我们输入**码5A02H-AU243-TZJ49-GTC7K-3C61N
这样就安装完成了
CentOS 7 安装
打开安装好的VMware workstation
点击 创建新的虚拟机
这里我们选择自定义
下一步
稍后安装操作系统
选择Linux
自定义虚拟机名称以及安装位置 注意 虚拟机名称影响到之后的配置文件改动
这两个配置看个人电脑配置选择
低配就默认 高配可以做修改
使用网络地址转换(NAT)
默认LSI Logic(L)
默认SCSI(S)
创建新虚拟磁盘
将虚拟磁盘拆分为多个文件(M)
下一步
自定义硬件
左侧 选择光驱
右侧 勾选 使用ISO映像文件(M)
之后点击 浏览 选择CentOS 7 的映像文件位置
关闭
完成
我们打开虚拟机
以上默认确定
语言选择中文
进去之后会加载一小会儿 之后我们选择 网络与主机名进行设置
打开右侧的开关 改一下主机名 记一下IP地址 点击应用
点击 开始安装
自行设置root用户及密码
安装完成后点击 重启 查看是否成功
安装成功界面
secureCRT 安装 以及新建session
打开安装包
安装完成后不运行程序,复制压缩包中的Kg_ttrar.exe程序到安装目录。
运行Kg_ttrar.ex,点击Patch按钮两次,分别加载两个默认文件,对源程序(即所安装程序的主程序)打补丁。如下所示:
现在启动secureCRT
Enter License Data
留白
点击左下角的手动输入
以上三步均按照补丁程序上的输入
完成安装
打开secureSRT
左上角 file quick connect
Hostname 为之前安装CentOS 7 时的 IP 地址
session name随意 点击完成
双击刚才建好的session
输入root用户密码 勾选记住密码
连接成功(若失败 检查虚拟机有无启动)
修改外观:【Options】→【Session Options】→【Appearance】→【Font】选择字体
【Character encoding】选择 UTF-8
JDK+Hadoop 安装配置
以下操作在SecureCRT里面完成
1.关闭防火墙
firewall-cmd --state 显示防火墙状态running/not running
systemctl stop firewalld 临时关闭防火墙,每次开机重新开启防火墙
systemctl disable firewalld 禁止防火墙服务
2.传输JDK和HADOOP压缩包
SecureCRT 【File】→【Connect SFTP Session】开启sftp操作
put jdk-8u121-linux-x64.tar.gz
put hadoop-2.7.3.tar.gz
可用put 命令 也可以直接拖拽传输
3.解压JDK、HADOOP
tar -zxvf jdk-8u121-linux-x64.tar.gz -C /opt/module 解压安装
tar -zxvf hadoop-2.7.3.tar.gz -C /opt/module 解压安装
4.配置JDK并生效
vi /etc/profile文件添加:
export JAVA_HOME=/opt/module/jdk1.8.0_121
export PATH=PATH
Esc :wq!保存并退出。不需要配置CLASSPATH。
source /etc/profile配置生效
运行命令javac,检验是否成功。
5.配置HADOOP并生效
vi /etc/profile文件添加:
export HADOOP_HOME=/opt/module/hadoop-2.7.3
export PATH=HADOOP_HOME/sbin:$PATH
Esc :wq!保存并退出。
source /etc/profile配置生效
运行命令hadoop,检验是否成功。
6.单机模式配置hadoop -env.sh
vi /opt/module/hadoop-2.7.3/etc/hadoop/hadoop-env.sh文件修改
显示行号 Esc :set number 取消行号Esc :set nonumber
修改第25行export JAVA_HOME=/opt/module/jdk1.8.0_121
Esc :wq!保存并退出
本地模式没有HDFS和Yarn,配置JDK后MapReduce能够运行java程序。
7.运行自带程序wordcount
cd /opt/module/hadoop-2.7.3/share/hadoop/mapreduce 转入wordcount所在路径。
运行touch in.txt,创建In.txt文件,作为输入文件。
(如果in.txt是空文件,运行vi in.txt,输入内容作为被统计词频的输入文件)
输出目录/output必须不存在,程序运行后自动创建。
运行wordcount:
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount in.txt output/
运行成功之后,进入/output目录,打开文件part-r-00000查看计数结果。
Hadoop伪分布式模式配置
只有一台虚拟机bigdata128,既是namenode又是datanode。
一、基础安装配置
完成上述1-5安装配置。
二、修改以下5个配置文件
在与之间添加如下property:
①core-site.xml
三、格式化
hdfs namenode -format (如果不是第一次格式化,格式化之前先删除/opt/module/hadoop-2.7.3/下面的tmp、logs两个目录)
四、启动
start-all.sh (如果启动之前已经启动过,启动之前先停止stop-all.sh)
查看伪分布式配置是否成功:
①执行ll,查看/opt/module/hadoop-2.7.3/tmp/dfs目录,如下图所示,则正确。
②执行jps,如下图所示,NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager如果全部启动,伪分布式配置成功。
③web控制台访问:http://192.168.163.128:50070 、http://192.168.163.128:8088
五、运行wordcount
hdfs dfs -put in.txt /adir 上传本地当前路径下的in.txt文件 到hdfs的/adir目录下。
运行hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /adir/in.txt output/。
在http://192.168.163.128:50070 查看/user/root/output/part-r-00000文件里的词频统计结果。
六、SSH免密码登陆(解决每次启动hadoop输入用户密码问题)
生成公、私**对:ssh-****** -t rsa 按3次回车键
查看:cd ~/.ssh路径下面的rd_rsa和rd_rsa.pub
复制:ssh-copy-id -i ~/.ssh/id_rsa.pub [email protected]
查看生成authorized_keys。
Hadoop完全分布式模式配置
一、新建另外两台Linux虚拟机
完全分布式模式共三台虚拟机,前述伪分布式的虚拟机(bigdata128)作为master主节点,克隆另外两个虚拟机(bigdata129、bigdata131)作为slaves子节点,克隆机自带安装JDK、Hadoop及配置文件。
注:此配置是为学习所用,且电脑资源有限,因此照搬伪分布式配置,将NameNode、SecondaryNameNode、ResourceManager全部配置在主节点bigdata128上面,实际情况则相反,应该分别配置在不同的节点上面。
二、修改以下配置文件
①slaves配置文件
三台虚拟机分别都运行命令 vi /opt/module/hadoop-2.7.3/etc/hadoop slaves
修改slaves为:
bigdata129
bigdata131
②修改\etc\hosts配置文件
三台虚拟机分别都运行命令 vi \etc hosts
注释已有内容,添加集群三台虚拟机的ip及对应主机名:
192.168.163.128 bigdata128
192.168.163.129 bigdata129
192.168.163.131 bigdata131
③修改\etc\hostname配置文件
三台虚拟机分别都运行命令 vi \etc hostname
添加各自的主机名bigdata128或者bigdata129或者bigdata130。
重启全部虚拟机,主机名生效。
三、格式化
在主节点bigdata128上面输入格式化命令(hdfs namenode -format),格式化集群。
注:如果不是第一次格式化,三台虚拟机都删除\opt\module\hadoop-2.7.3\下面的tmp、logs目录:rm –rf \opt\module\hadoop-2.7.3\tmp rm –rf \opt\module\hadoop-2.7.3\logs
注:如果格式化之前启动过集群,先在主节点bigdata128上面停止集群(stop-all.sh),再格式化。
四、启动集群
在主节点bigdata128上面输入启动命令(start-all.sh),启动集群。
注:如果启动之前启动过集群,先在主节点bigdata128上面停止集群(stop-all.sh),再启动。
启动正常,输入jps命令,显示如下:
启动正常jps显示3台主机如上如下
web控制台访问:http://192.168.163.128:50070 、http://192.168.163.128:8088
页面正常显示,则成功。
五、运行wordcount
hdfs dfs -put in.txt /adir 上传本地当前路径下的in.txt文件 到hdfs的/adir目录下。
运行hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /adir/in.txt output/。
在http://192.168.163.128:50070 查看/user/root/output/part-r-00000文件里的词频统计结果。
如下图所示:
克隆虚拟机
先关闭被克隆虚拟机,【虚拟机(M)】→【管理(M)】→【克隆©】
完成克隆
以上均仿照老师给的教程做的