第二篇:Hadoop的体系结构详解(重点)

主题:Hadoop的体系结构详解(重点)


注意:大数据的一些组件的结构基本上都是主从式的结构

一、Hadoop的分布式文件存储系统HDFS的体系结构

HDFS的体系结构图:

第二篇:Hadoop的体系结构详解(重点)

HDFS的伪分布环境下的结构:

    第二篇:Hadoop的体系结构详解(重点)

HDFS体系结构包括:

    (1)、NameNode 名称节点

                作用:

                        (*)维护管理HDFS

                        (*)接收客户端的请求:上传、下载、创建目录、查看等;

                        (*)维护了两个重要核心文件:EditLog,FsImage

                                    a、EditLog 代表的是HDFS的操作日志文件

                                         (*) 操作日志文件位置信息:/tmp/dfs/name/current/

                                         第二篇:Hadoop的体系结构详解(重点)

                                         (*)日志都是二进制格式 ,edit viewer  将二进制文件转换成xml格式的数据格式

                                                  hdfs oev -i    edits_inprogress_0000000000000000128  -o ~/edit_inprogress.xml 

                                                第二篇:Hadoop的体系结构详解(重点)

                                        (*)、EditLog记录了操作HDFS的行为信息

                                    b、FsImage 代表的是HDFS的元信息文件

                                        (*)位置:/tmp/dfs/name/current/                                                                                                                                                      第二篇:Hadoop的体系结构详解(重点)

                                         (*)二进制文件,image viewer,将二进制转换成可读的文本或xml格式的数据

                                                 hdfs oiv -i fsimage_0000000000000000127 -o ~/fsimage.xml -p XML

                                                 第二篇:Hadoop的体系结构详解(重点) 

                                         (*)记录了数据块的位置信息、数据块的冗余信息等

    (2)、DataNode   数据节点 

                作用:用于保存数据块及将数据块进行水平复制,达到Hadoop数据块冗余度的要求

                (*)hadoop 1.x版本的数据块大小 64M hadoop2.x以上的数据块大小 128M

                (*)位置:进入到hadoop的安装路径下/training/hadoop-2.7.3/tmp/dfs/data/current/BP-2021293766-192.168.215.163-1551103164079/current/finalized/subdir0/subdir0

                (*)案例:

                            上传一个文件,看看会不会对文件进行切割

                   

    (3)、SecondaryNameNode    第二名称节点

                作用:将edit的最新信息合并到fsimage文件中,目的是减少集群的启动时间

                (*)位置:一般会与NameNode在一起,处于效率的角度考虑

                (*)合并过程,画图说明:

                        第二篇:Hadoop的体系结构详解(重点)    

                   (*)检查点什么时候发生:

                             默认:(1)时间达到60分钟时发生

                                       (2)edit日志文化大小达到64M时发生

    

二、Hadoop的分布式资源协调框架Yarn的体系结构

    (1)、ResourceManager  资源管理器

    (2)、NodeManager      节点管理器

三、Hadoop的分布式数据库HBase的体系结构

    (1)、HMaster   主节点

    (2)、ReginServer 从节点