大数据实训01--Hadoop生态基本介绍

有一个Hadoop生态圈，都是用动物命名的

分布式存储，分布式技术

分布式文件系统master-slave （每一台服务器为一个结点，一主多从）主从架构

master（主结点）-----保存文件系统的目录树结构（清单），监控整个集群资源使用情况

slave（从结点）-----存放真实的数据

客户端 和分布式文件系统进行通信

内部客户端（集群内部）

web客户端

先和master建立通信获取目录（数据清单）

分散在分布式系统中的数据可能属于一个文件

namespace命名空间，管理服务器集群的所有文件，有这种功能的就是主节点master

为了提高访问速度，可以将目录（master）存放在内存

很难管理大小不一样的文件-----解决:利用block块(Hadoop内部划分大小一样的块)Hadoop 1.x block 64M 2.x 128M

为数据建立副本（冗余备份）replication 副本机制 防止服务器崩溃导致数据丢失

Hadoop默认的副本有3个，分散在不同的机架

大数据实训01--Hadoop生态基本介绍