大数据实训01--Hadoop生态基本介绍

Hadoop官网

有一个Hadoop生态圈,都是用动物命名的

知识前提

分布式存储,分布式技术

分布式文件系统master-slave (每一台服务器为一个结点,一主多从)主从架构

master(主结点)-----保存文件系统的目录树结构(清单),监控整个集群资源使用情况

slave(从结点)-----存放真实的数据 

客户端  和分布式文件系统进行通信

内部客户端(集群内部)

web客户端

 先和master建立通信获取目录(数据清单)

分散在分布式系统中的数据可能属于一个文件

namespace命名空间,管理服务器集群的所有文件,有这种功能的就是主节点master

为了提高访问速度,可以将目录(master)存放在内存

很难管理大小不一样的文件-----解决:利用block块(Hadoop内部划分大小一样的块)Hadoop 1.x block 64M  2.x 128M

 为数据建立副本(冗余备份)replication 副本机制  防止服务器崩溃导致数据丢失

Hadoop默认的副本有3个,分散在不同的机架

 

 大数据实训01--Hadoop生态基本介绍