Hadoop完整解析

1：首先了解一下Hadoop是什么以及能为我们做些什么

https://blog.****.net/zhang123456456/article/details/77657807

2：Hadoop的安装方式

！！！注意点：
为了保证远程云主机的内网地址本地可见 需要配置v*n访问
这也是为什么无法实现本地配置eclipse远程访问阿里云云主机HDFS存储系统的原因

Hadoop完整解析
<1>伪分布式安装（熟悉）

Hadoop完整解析
JPS命令下
查看共有
以下Hadoop相关的5个进程
1.namenode(HDFS)
2.secondaryNamenode(HDFS)
3.datanode(HDFS)
4.ResourceManager(M/R)
5.NodeManager(M/R)

<2>集群方式安装 (了解)

Hadoop完整解析
3：Hadoop中的基本模块

4：HDFS
<1>HDFS是什么
为上层提供高效的非结构化存储服务

1：DFS（分布式文件系统）
跨多台计算机或服务器的文件或文件夹
允许我们将数据存储在群集中的多个节点或机器上，并允许多个用户访问数据
2.HDFS
HDFS是基于Java的分布式文件系统
Hadoop是以HDFS作为底层存储系统来存储分布式环境的数据

<2>HDFS的组成

1：namenode 管理数据的节点
：元数据存储在内存（快速查询）与磁盘（崩溃恢复）中 
内容有：文件存储位置，切块数，文件块存储的datanode地址
：由fsimage与edits与fstime文件 内存与磁盘中的数据组成
：fsimage 存储元数据
:edits 存储HDFS的操作
:fstime 记录上一次的更新时间
2:secondaryNamenode 进行fsimage和edits的合并 起到一定的备份作用 但并不是namnode的热备份 namenode的备份需要借助journalnode
3.datanode 一个大的数据分块存储的节点

namenode管理流程
Hadoop完整解析

SecondaryNamenode合并过程

<3>HDFS基本原理

1.HDFS存储数据时 先切块 分配一个递增的编号
2.数据备份 伪分布式为1 全分布式下默认3
3.复本放在不同的datanode中 
复本放置策略：机架感知策略
4.datanode宕机时 namenode管理 将这个datanode上存放的复本复制 保证复本符合设置个数
5.datanode向那么namenode放松心跳 从而使namnode保持对datanode的管理
心跳信息有：1.节点状态2.节点存储的数据
6.默认10分钟 心跳信息超时 执行4的策略

<4>HDFS的操作流程
Hadoop完整解析
<5>HDFS操作指令

<6>HDFS通过本地eclipse远程操控存取数据

<7> API操作
1.上传
2.下载

<8>HDFS的优缺点
1.优点
Hadoop完整解析
2.缺点

Hadoop完整解析

5:Map/Reduce
<1>用来做什么？
大规模数据集（大于1TB）的并行运算
MapReduce是将一个大作业拆分为多个小作业的框架
<2>处理计算流程

Hadoop完整解析
未完待续。。。

相关推荐