Hadoop核心HDFS介绍以及基础指令


Hadoop三大核心中HDFS的介绍

HDFS(Hadoop Distributed File System)

HDFS:分布式文件系统,解决分布式存储

1、HDFS特点:

HDFS优点

1、支持处理超大文件
2、可运行在廉价机器上
3、高容错性
4、流式文件写入

HDFS缺点

1、不适合低延时数据访问场景
2、不适合小文件存取场景
3、不适合并发写入,文件随机修改场景

2、HDFS dfsadmin

dfsadmin命令用于管理HDFS集群

指令 功能说明
hdfs dfsadmin -report 返回集群的状态信息
hdfs dfsadmin -safemode enter/leave 进入和离开安全模式
hdfs dfsadmin -saveNamespace 保存集群的名字空间
hdfs dfsadmin -rollEdits 回滚编辑日志
hdfs dfsadmin -refreshNodes 刷新节点
hdfs dfsadmin -getDatanodeInfo node1:8010 获取数据节点信息
hdfs dfsadmin -setQuota 10 /hdfs 设置文件目录配额

3、HDFS CLI (命令行)

基本格式
hdfs dfs -cmd
hadoop fs -cmd(已过时)
命令和Linux相似

-ls
hdfs dfs -ls /
Hadoop核心HDFS介绍以及基础指令
-mkdir
hdfs dfs -mkdir /mydemo
Hadoop核心HDFS介绍以及基础指令
-put
hdfs dfs -put /opt/zjw.txt /mydemo
Hadoop核心HDFS介绍以及基础指令
-rm
hdfs dfs -rm /mydemo/zjw.txt
Hadoop核心HDFS介绍以及基础指令
-help
Hadoop核心HDFS介绍以及基础指令
-cat:只能看简单的文本文档
hdfs dfs -cat /mydemo/zjw.txt
Hadoop核心HDFS介绍以及基础指令
创建多层文件夹-p
hdfs dfs -mkdir -p /mydemo/zjw
Hadoop核心HDFS介绍以及基础指令
获取文件
hdfs dfs -get /mydemo/zjw/zjw.txt /opt/

Hadoop核心HDFS介绍以及基础指令
Hadoop核心HDFS介绍以及基础指令

4、HDFS架构

Hadoop核心HDFS介绍以及基础指令

5、HDFS副本机制

(1)Block:数据块

HDFS最基本的存储单元
默认块大小:128M(2.x)
副本机制
作用:避免数据丢失
副本数默认为3

(2)存放机制:

一个在本地机架节点
一个在同一个机架不同节点
一个在不同机架的节点
Hadoop核心HDFS介绍以及基础指令

6、HDFS高可用(High Availability)

1、在1.x版本中
存在Namenode单点问题
2、在2.x版本中解决:
HDFS Federation方式,共享DN资源
Active Namenode:对外提供服务
Standby Namenode:Active故障时可切换为Active

7、HDFS读文件

Hadoop核心HDFS介绍以及基础指令
Hadoop核心HDFS介绍以及基础指令

8、HDFS写文件

Hadoop核心HDFS介绍以及基础指令

9、HDFS文件格式

1、HDFS支持以不同格式存储所有类型的文件
(1)文本、二进制
(2)未压缩、压缩
2、为了最佳的Map-Reduce处理,文件需可分割
(1)SequenceFile
(2)Avro File
(3)RCFile&ORCFile
(4)Parquet File