大数据实训01--Hadoop生态基本介绍
有一个Hadoop生态圈,都是用动物命名的
知识前提
分布式存储,分布式技术
分布式文件系统master-slave (每一台服务器为一个结点,一主多从)主从架构
master(主结点)-----保存文件系统的目录树结构(清单),监控整个集群资源使用情况
slave(从结点)-----存放真实的数据
客户端 和分布式文件系统进行通信
内部客户端(集群内部)
web客户端
先和master建立通信获取目录(数据清单)
分散在分布式系统中的数据可能属于一个文件
namespace命名空间,管理服务器集群的所有文件,有这种功能的就是主节点master
为了提高访问速度,可以将目录(master)存放在内存
很难管理大小不一样的文件-----解决:利用block块(Hadoop内部划分大小一样的块)Hadoop 1.x block 64M 2.x 128M
为数据建立副本(冗余备份)replication 副本机制 防止服务器崩溃导致数据丢失
Hadoop默认的副本有3个,分散在不同的机架