Hadoop核心HDFS介绍以及基础指令
HDFS介绍以及指令
Hadoop三大核心中HDFS的介绍
HDFS(Hadoop Distributed File System)
HDFS:分布式文件系统,解决分布式存储
1、HDFS特点:
HDFS优点
1、支持处理超大文件
2、可运行在廉价机器上
3、高容错性
4、流式文件写入
HDFS缺点
1、不适合低延时数据访问场景
2、不适合小文件存取场景
3、不适合并发写入,文件随机修改场景
2、HDFS dfsadmin
dfsadmin命令用于管理HDFS集群
指令 | 功能说明 |
---|---|
hdfs dfsadmin -report | 返回集群的状态信息 |
hdfs dfsadmin -safemode enter/leave | 进入和离开安全模式 |
hdfs dfsadmin -saveNamespace | 保存集群的名字空间 |
hdfs dfsadmin -rollEdits | 回滚编辑日志 |
hdfs dfsadmin -refreshNodes | 刷新节点 |
hdfs dfsadmin -getDatanodeInfo node1:8010 | 获取数据节点信息 |
hdfs dfsadmin -setQuota 10 /hdfs | 设置文件目录配额 |
3、HDFS CLI (命令行)
基本格式
hdfs dfs -cmd
hadoop fs -cmd(已过时)
命令和Linux相似
-lshdfs dfs -ls /
-mkdirhdfs dfs -mkdir /mydemo
-puthdfs dfs -put /opt/zjw.txt /mydemo
-rmhdfs dfs -rm /mydemo/zjw.txt
-help
-cat:只能看简单的文本文档hdfs dfs -cat /mydemo/zjw.txt
创建多层文件夹-phdfs dfs -mkdir -p /mydemo/zjw
获取文件hdfs dfs -get /mydemo/zjw/zjw.txt /opt/
4、HDFS架构
5、HDFS副本机制
(1)Block:数据块
HDFS最基本的存储单元
默认块大小:128M(2.x)
副本机制
作用:避免数据丢失
副本数默认为3
(2)存放机制:
一个在本地机架节点
一个在同一个机架不同节点
一个在不同机架的节点
6、HDFS高可用(High Availability)
1、在1.x版本中
存在Namenode单点问题
2、在2.x版本中解决:
HDFS Federation方式,共享DN资源
Active Namenode:对外提供服务
Standby Namenode:Active故障时可切换为Active
7、HDFS读文件
8、HDFS写文件
9、HDFS文件格式
1、HDFS支持以不同格式存储所有类型的文件
(1)文本、二进制
(2)未压缩、压缩
2、为了最佳的Map-Reduce处理,文件需可分割
(1)SequenceFile
(2)Avro File
(3)RCFile&ORCFile
(4)Parquet File