伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn
在我的虚拟机(Linux)上安装的Hadoop是2.7.3版本的,安装过程可以参考这个网站,也可以下载。
(1)首先先传解压
(2)查看目录结构
需要删除bin/*.cmd sbin/*.cmd share/doc cmd(指的是Windows上执行的命令,者Linux中是不需要的,可以删除)
(3)修改三个模块的环境变量(*.env)
Hadoop-env.sh yarn-en.sh mapred-env.sh 配置者三个里面的环境变量(JAVA_HOME)并且添加可执行权限
chmod u+x Hadoop-env.sh yarn-env.sh mapred-env.sh
(4)按照模块来进行配置
下面介绍四个模块的配置以及运行过程
Common模块:
需配置该模块下的core.site.xml
这是配置文件的网站:
http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html(配置文件)
需配置的内容:
<!--指定文件系统为HDFS及主节点NameNode运行的机器和端口-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata-hpsk01.huadian.com:8020</value>
</property>
<!--指定文件系统的本地临时存储目录,默认是当前系统/tmp,这里需要去执行创建临时目录--/opt/modules/hadoop-2.7.3/data/tmpData >
<property>
<name>hadoop.tmp.dir</name> <value>/opt/modules/hadoop-2.7.3/data/tmpData</value>
</property>
HDFS: 需配置该模块下的hdfs-site.xml(需配置的内容如下)
<!--由于是伪分布式部署,仅有一台机器
所有block副本数没有必要设置为3,设置为1即可-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
还需要配置slaves(配置slaves文件,指定datanode运行在那些机器上)
将原来的localhost修改为Linux的hostname(比如我的:bigdata-hpsk01.huadian.com 这里是自己设置的)如果有多个从节点,那就需要配置多个,原则上是一行一个主机名。
启动HDFS:第一次使用文件系统,需要格式化。
第一次使用文件系统,需要格式化。
操作的步骤 | 需输入的命令 | 备注 | |
格式系统 |
cd /opt/modules/hadoop-2.7.3 bin/hdfs namenode -format |
| |
启动 |
主节点 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh stop namenode 从节点 sbin/hadoop-daemon.sh start datanode sbin/hadoop-daemon.sh stop datanode
| 这个每次都需要手动开启或关掉 | |
验证是否启动成功 |
方式一: jps, ps -ef |grep java 方式二: 通过webUI 界面查看 bigdata-hpsk01.huadian.com:50070
| 通过着两种方式去查看是否启动失败或者成功 | |
测试HDFS |
帮助文档 bin/hdfs dfs
| HDFS文件系统目录和Linux目录结构类似,命令也类似 | |
下面这些操作都是属于测试HDFS的内容:这些命令需要进入到Hadoop-2.7.3下去执行 | |||
创建目录 | bin/hdfs dfs -mkdir /datas | 在HDFS上创建/datas目录,需要在浏览器上查看 | |
查看目录 |
bin/hdfs dfs -ls /datas bin/hdfs dfs -ls / | 由于创建的时候目录里面没有内容,所以可以使用下面的这个查看创建是否成功 | |
上传文件 | bin/hdfs dfs -put /opt/datas/input.data /datas/ | 需要现在/opt目录下创建一个datas目录,然后再在datas目录下创建一个文件input.data,这个是需要上传的文件 | |
查看文件内容 |
bin/hdfs dfs -text /datas/input.data bin/hdfs dfs -cat /datas/input.data |
| |
下载文件 | bin/hdfs dfs -get /datas/input.data ./ | 下载到当前目录 | |
删除文件 | bin/hdfs dfs -rm -r /datas/input.data | 这里可以是-r –f,不能是-rf |
格式化
出现的状态
启动主从节点
HDFS帮助文档
上传文件
查看文件内容
删除文件
配置YARN:
对于分布式资源管理和任务调度来说,哪些程序可以运行在YARN之上
运行在yarn上的程序 | 执行的任务 | 备注 | ||
MapReduce | 并行数据处理框架 |
| ||
spark | 基于内存分布式处理框架 | 实时数据处理 | ||
storm/flink | 实时流式处理框架 |
| ||
TeZ |
分析数据,比 MapReduce速度快 |
| ||
Yarn的主从节点: 主节点:resourceManager 从节点:nodeManager | ||||
需要修改的配置 |
yarn-site.xml |
修改的内容: <!--resourceManager服务运行的主机名称--> <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata-hpsk01.huadian.com</value> </property> <!--告知yarn ,mapreduce程序将在你这里运行--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> slaves文件:前面已经修改了,如果有多个也可以修改 | ||
启动 yarn |
|
主节点:resourceManager sbin/yarn-daemon.sh start resourcemanager 从节点:nodeManager sbin/yarn-daemon.sh start nodemanager | ||
验证 |
|
方式一:jps === ps -ef |grep java 方式二:bigdata-hpsk01.huadian.com:8088(UI界面) |
启动yarn进程(主从节点)