手把手教你HDFS基础配置安装及命令使用!

HDFS是基于Java的文件系统,可在Hadoop生态系统中提供可扩展且可靠的数据存储。

因此,我们需要了解基本的HDFS配置和命令才能正常使用它。在使用之前,我们首先讨论如何配置安装HDFS。

Hadoop以及HDFS都运行在java环境中,因此我们都需要安装JDK:

手把手教你HDFS基础配置安装及命令使用!

设置namenode节点到datanode节点的免密登陆

1、本地免密登录

手把手教你HDFS基础配置安装及命令使用!

2、跨主机免密登陆

手把手教你HDFS基础配置安装及命令使用!

3、对所有datanode执行上述操作

设置域名解析(在所有节点增加)

手把手教你HDFS基础配置安装及命令使用!

由于Hadoop有bin包,所以下载后只需解压即可使用。如果我们使用的是版本hadoop-1.2.1,那就将软件解压到/root/hadoop-1.2.1文件夹中。

注意:namenode和datanode软件包的放置位置要完全相同,否则在集群启动服务时会出现找不到文件的情况。

配置

手把手教你HDFS基础配置安装及命令使用!

HDFS本地Golang客户端实践

基于上述基础配置,我们也可以尝试配置HDFS的本地golang客户端,它使用协议缓冲区API直接连接namenode,使用stdlib os包并实现相应接口,包括os.FileInfo和os.PathError。

这是它在action中的状态:

手把手教你HDFS基础配置安装及命令使用!

HDFS二进制文件

与库类似,此repo包含HDFS命令行客户端,主要目标是启用unix动词实现:

手把手教你HDFS基础配置安装及命令使用!

由于它不必等待JVM启动,所以hadoop -fs要快得多:

手把手教你HDFS基础配置安装及命令使用!

安装命令行客户端

从发布页面抓取tarball并将其解压缩到任意位置。

要配置客户端,请确保其中一个或两个环境变量指向Hadoop配置(core-site.xml和hdfs-site.xml)。在安装了Hadoop的系统上,应该已经设置过上述变量。

手把手教你HDFS基础配置安装及命令使用!

要在linux上完成选项卡安装,请将tarball附带的bash_completion文件复制或链接到正确位置:

手把手教你HDFS基础配置安装及命令使用!

默认情况下,在非kerberized集群上,HDFS用户可设置为当前登录用户,也可以使用另一个环境变量覆盖它:

手把手教你HDFS基础配置安装及命令使用!

使用带有Kerberos身份验证的命令行客户端

与hadoop fs一样,命令行客户端需要在默认位置使用ccache文件:/ tmp / krb5cc_ <uid>。 这意味着它必须“正常工作”才能使用kinit:

手把手教你HDFS基础配置安装及命令使用!

如果不起作用,请尝试将KRB5CCNAME环境变量设置为保存ccache的位置。

兼容性

该库使用HDFS协议的“Version 9”,这意味着它应该使用基于2.2.x及更高版本的Hadoop发行版,测试针对CDH 5.x和HDP 2.x运行。

检查机器是否能与HDFS通信

如果想检查一台机器是否可以与另一台机器上运行的HDFS服务器通信,并从Hadoop wiki中修改一些代码,如下所示:

手把手教你HDFS基础配置安装及命令使用!

我最初以为POM文件中只有以下内容:

手把手教你HDFS基础配置安装及命令使用!

但运行脚本时,我得到了以下结果:

手把手教你HDFS基础配置安装及命令使用!

通过跟踪堆栈跟踪,我意识到犯了一个错误,即对hadoop-hdfs 2.4.1进行了依赖。如果没有hadoop-hdfs依赖,我们会看到如下错误:

手把手教你HDFS基础配置安装及命令使用!

现在,让我们添加正确的依赖项版本,并确保可以按照预期工作:

手把手教你HDFS基础配置安装及命令使用!

运行时,它会在另一台机器上用当前时间戳在HDFS中创建一个新文件:

手把手教你HDFS基础配置安装及命令使用!

(该项目开源地址:https://github.com/colinmarc/hdfs)

基础HDFS命令

完成安装配置后,我们需要了解HDFS基础命令,需要知道每个命令的详细语法。一般语法如下:

手把手教你HDFS基础配置安装及命令使用!

这将在Hadoop(HDFS)支持的文件系统上运行filesystem命令,其余Command选项如下所示:

手把手教你HDFS基础配置安装及命令使用!

手把手教你HDFS基础配置安装及命令使用!

1、put命令

'put'命令将数据输入HDFS。

语法:hadoop dfs -put </ source path> </ destination path>

手把手教你HDFS基础配置安装及命令使用!

2、List命令

'list'命令显示特定路径中的所有可用文件。

语法:hadoop dfs -ls </ source path>

手把手教你HDFS基础配置安装及命令使用!

3、Get命令

'get'命令将上述文件的全部内容复制到本地驱动器。

语法:hadoop dfs -get </ source path> </ destination path>

手把手教你HDFS基础配置安装及命令使用!

4、Make Directory命令

'mkdir'命令在指定位置创建一个新目录。

语法:hadoop dfs -mkdir </ source path>

手把手教你HDFS基础配置安装及命令使用!

5、查看特定文件的内容

'cat'命令用于显示文件的所有内容。

语法:hadoop dfs -cat </ path [filename]>

手把手教你HDFS基础配置安装及命令使用!

6、复制HDFS内的完整文件

'copyfromlocal'命令将文件从本地文件系统复制到HDFS。

语法:hadoop dfs -copyFromLocal </ source path> </ destination path>

手把手教你HDFS基础配置安装及命令使用!

7、将文件从HDFS复制到本地文件系统

'copytolocal'命令将文件从HDFS复制到本地文件系统。

语法:hadoop dfs -copyToLocal </ source path> </ destination path>

手把手教你HDFS基础配置安装及命令使用!

8、删除文件

命令'rm'将删除存储在HDFS中的文件。

语法:hadoop dfs -rm </ path [filename]>

手把手教你HDFS基础配置安装及命令使用!

9、运行DFS文件系统以检查实用程序

命令'fsck'用于检查文件系统的一致性

语法:hadoop fsck </ file path>

手把手教你HDFS基础配置安装及命令使用!

10、集群负载均衡程序

'balancer'命令将检查集群中节点的工作负载并进行平衡。

语法:hadoop balancer

手把手教你HDFS基础配置安装及命令使用!

11、检查HDFS中的目录空间

该命令将显示集群内文件占用的大小。

语法:hadoop dfs -du -s -h </ file path>

手把手教你HDFS基础配置安装及命令使用!

12、列出所有Hadoop文件系统Shell命令

'fs'命令列出了Hadoop文件系统的所有shell命令。

语法:hadoop fs [options]

手把手教你HDFS基础配置安装及命令使用!

在Hadoop和HDFS的实际配置中,我们可能会遇到很多问题,好在其庞大的社区支持让我们可以很轻松得找到各类解决方案,如果你对HDFS的概念并不熟悉,你也可以考虑阅读本系列的上一篇文章:《扫盲:Hadoop分布式文件系统(HDFS)基础概念讲解!》