初学大数据(主要介绍分布式存储)

初学大数据(主要介绍分布式存储)

1.什么是大数据?
短时间内快速产生海量多种多样有价值的数据
2.大数据中的技术
①分布式存储
②分布式计算(包含以下两种)

	1)分布式批处理
			攒一段时间的数据,然后在未来某个时间处理这批数据
	2)分布式流处理
			不需要攒数据,直接处理,每产生一条数据,立马对这条数据进行处理,将结果推送到前端页面存储到数据库中。(双11天猫大屏幕、QQ实时在线分布情况都属于分布式流处理。)

3.部分概念
元数据:描述数据的数据
机架:Rack,现实中放服务器的架子,一般情况下一个机架放10条服务器。
4.为什么要用到分布式存储与计算?
假设有一个10PB的文件需要存储并处理,单台服务器的内存资源与计算资源都无法满足需求。因此引入分布式存储与计算。
5.分布式存储(HDFS)的基本思想?
用户client需要存储并处理一个10PB文件,假设将其分布存储在6台服务器上(6个Datanode)。此时,为记录每台服务器都存了哪些资源,引入一个代理(Namenode)。代理解决如何存、往哪存,如何取、去哪取的问题。

过程:当client需要存一个资源时,询问Namenode,后者返回一组地址等信息给client,client根据地址等信息向Datanode去存储;当client需要取其中的某个资源时,询问Namenode,后者告诉它文件在哪里,client直接去取资源。
初学大数据(主要介绍分布式存储)
6.Namenode的作用:
1)掌控全局,管理Datanode及元数据(元数据存储在内存中)
2)接受客户端的读写服务
3)收集Datanode汇报的Block列表信息
Namenode保存metadata信息包括:
文件ownship和permissions
文件大小、时间(Block列表:BloID)
Block副本位置(由Datanode上报)
4)接受client的读请求,返回地址
7.Datenode的作用:
1)存储block块,向Namenode发送心跳
2)接受client的读请求
8.HDFS的备份机制:
1)第一个block存储在负载不是很高的一台服务器上
2)第1个备份的block存储在与第一个block不同的机架随机一条服务器上
3)第2个备份在与第一个备份相同的机架随机一台服务器上
9.client向Datanode写数据的详细流程
Namenode返回给client一批地址之后,这些Datanode之间会形成一个Pipeline管道,管道中流的就是block切割成的一个个packet(64k)。这种方法不会造成阻塞,提高效率。
初学大数据(主要介绍分布式存储)
初学大数据(主要介绍分布式存储)
10.Namenode的持久化进程
为什么要把Namenode持久化?
Datanode有备份,可以防止数据损坏丢失等。但是作为掌控全局的Namenode,如果出现问题,后果比Datanode要严重的多,那么如何让其更加安全?使用的是持久化,即写入磁盘。
为什么要使用持久化,而不是备份?若使用备份,Namenode要与其他进程进行通信,并且备份与恢复至少存在两次io,极大浪费了Namenode的宝贵负载资源。故不用。
何时持久化?
合并触发机制:
1.超过3600秒未合并
2.如果edits文件超过64M
如何持久化?
edits主要保存在NameNode已经启动情况下对HDFS进行的各种更新操作进行记录
fsimage保存了最新的元数据检查点,在HDFS启动时加载fsimage的信息,包含了整个HDFS文件系统的所有目录和文件的信息
edits.new保存的是在edits做持久化的10s中(这10s期间edits无法更新记录),HDFS进行的各种更新操作

初学大数据(主要介绍分布式存储)