Hadoop完整解析

1:首先了解一下Hadoop是什么以及能为我们做些什么

https://blog.****.net/zhang123456456/article/details/77657807

2:Hadoop的安装方式

!!!注意点:
为了保证远程云主机的内网地址本地可见 需要配置v*n访问
这也是为什么无法实现本地配置eclipse远程访问阿里云云主机HDFS存储系统的原因

Hadoop完整解析
<1>伪分布式安装(熟悉)

Hadoop完整解析
JPS命令下
查看共有
以下Hadoop相关的5个进程
1.namenode(HDFS)
2.secondaryNamenode(HDFS)
3.datanode(HDFS)
4.ResourceManager(M/R)
5.NodeManager(M/R)

<2>集群方式安装 (了解)

Hadoop完整解析
3:Hadoop中的基本模块
Hadoop完整解析
4:HDFS
<1>HDFS是什么
为上层提供高效的非结构化存储服务

1:DFS(分布式文件系统)
跨多台计算机或服务器的文件或文件夹
允许我们将数据存储在群集中的多个节点或机器上,并允许多个用户访问数据
2.HDFS
HDFS是基于Java的分布式文件系统
Hadoop是以HDFS作为底层存储系统来存储分布式环境的数据

<2>HDFS的组成

1:namenode 管理数据的节点
:元数据存储在内存(快速查询)与磁盘(崩溃恢复)中 
内容有:文件存储位置,切块数,文件块存储的datanode地址
:由fsimage与edits与fstime文件 内存与磁盘中的数据组成
:fsimage 存储元数据
:edits 存储HDFS的操作
:fstime 记录上一次的更新时间
2:secondaryNamenode 进行fsimage和edits的合并 起到一定的备份作用 但并不是namnode的热备份 namenode的备份需要借助journalnode
3.datanode 一个大的数据分块存储的节点

namenode管理流程
Hadoop完整解析
Hadoop完整解析
SecondaryNamenode合并过程
Hadoop完整解析

<3>HDFS基本原理

1.HDFS存储数据时 先切块 分配一个递增的编号
2.数据备份 伪分布式为1 全分布式下默认3
3.复本放在不同的datanode中 
复本放置策略:机架感知策略
4.datanode宕机时 namenode管理 将这个datanode上存放的复本复制 保证复本符合设置个数
5.datanode向那么namenode放松心跳 从而使namnode保持对datanode的管理
心跳信息有:1.节点状态2.节点存储的数据
6.默认10分钟 心跳信息超时 执行4的策略

<4>HDFS的操作流程
Hadoop完整解析
<5>HDFS操作指令
Hadoop完整解析
<6>HDFS通过本地eclipse远程操控存取数据
Hadoop完整解析

<7> API操作
1.上传
2.下载

<8>HDFS的优缺点
1.优点
Hadoop完整解析
2.缺点

Hadoop完整解析

5:Map/Reduce
<1>用来做什么?
大规模数据集(大于1TB)的并行运算
MapReduce是将一个大作业拆分为多个小作业的框架
<2>处理计算流程

Hadoop完整解析
未完待续。。。