Hadoop完整解析
1:首先了解一下Hadoop是什么以及能为我们做些什么
https://blog.****.net/zhang123456456/article/details/77657807
2:Hadoop的安装方式
!!!注意点:
为了保证远程云主机的内网地址本地可见 需要配置v*n访问
这也是为什么无法实现本地配置eclipse远程访问阿里云云主机HDFS存储系统的原因
<1>伪分布式安装(熟悉)
JPS命令下
查看共有
以下Hadoop相关的5个进程
1.namenode(HDFS)
2.secondaryNamenode(HDFS)
3.datanode(HDFS)
4.ResourceManager(M/R)
5.NodeManager(M/R)
<2>集群方式安装 (了解)
3:Hadoop中的基本模块
4:HDFS
<1>HDFS是什么
为上层提供高效的非结构化存储服务
1:DFS(分布式文件系统)
跨多台计算机或服务器的文件或文件夹
允许我们将数据存储在群集中的多个节点或机器上,并允许多个用户访问数据
2.HDFS
HDFS是基于Java的分布式文件系统
Hadoop是以HDFS作为底层存储系统来存储分布式环境的数据
<2>HDFS的组成
1:namenode 管理数据的节点
:元数据存储在内存(快速查询)与磁盘(崩溃恢复)中
内容有:文件存储位置,切块数,文件块存储的datanode地址
:由fsimage与edits与fstime文件 内存与磁盘中的数据组成
:fsimage 存储元数据
:edits 存储HDFS的操作
:fstime 记录上一次的更新时间
2:secondaryNamenode 进行fsimage和edits的合并 起到一定的备份作用 但并不是namnode的热备份 namenode的备份需要借助journalnode
3.datanode 一个大的数据分块存储的节点
namenode管理流程
SecondaryNamenode合并过程
<3>HDFS基本原理
1.HDFS存储数据时 先切块 分配一个递增的编号
2.数据备份 伪分布式为1 全分布式下默认3
3.复本放在不同的datanode中
复本放置策略:机架感知策略
4.datanode宕机时 namenode管理 将这个datanode上存放的复本复制 保证复本符合设置个数
5.datanode向那么namenode放松心跳 从而使namnode保持对datanode的管理
心跳信息有:1.节点状态2.节点存储的数据
6.默认10分钟 心跳信息超时 执行4的策略
<4>HDFS的操作流程
<5>HDFS操作指令
<6>HDFS通过本地eclipse远程操控存取数据
<7> API操作
1.上传
2.下载
<8>HDFS的优缺点
1.优点
2.缺点
5:Map/Reduce
<1>用来做什么?
大规模数据集(大于1TB)的并行运算
MapReduce是将一个大作业拆分为多个小作业的框架
<2>处理计算流程
未完待续。。。