您的位置: 首页 > 文章 > hadoop是什么？我来试试

hadoop是什么？我来试试

分类: 文章 • 2023-12-16 20:54:16

刚刚进行了解，目前市面上的资料应该也不少，每个人的理解多少都会有些偏差，真理也就是用来被推翻的。

记录下小僧几个务虚的笔记很简洁

部署模式：严格上来分应该为四类，大都分为3类

1：本地模式 2：伪分布模式 3：完全分布式模式 4：HA完全分布式模式

区分依据：运行在几个JVM进程、几台机器。

MapReduce(分布式计算，并行编程模型与执行框架)

核心操作：map和reduce

map:是把一组数据，一对一的映射为另一组数据

reduce:是对一组数据进行归约

reduce函数输入类型必须匹配map函数的输出类型。

hadoop是什么？我来试试

Map函数与Reduce函数

首先继承Mapper，并重写实现它的map方法 ,至于里面的逻辑是什么，输出类型还得看自己的需求。

hadoop是什么？我来试试

有了Map函数还需要Reduce函数

reduce需要继承reducer并重写它的reduce方法

hadoop是什么？我来试试

HDFS（分布式存储）

结构：M/S结构（主从）

部署：Master只运行一个namenode节点

每一台slave运行一个datanode实例

NameNode:是HDFS的守护程序

负责：记录大数据文件如何被分割成数据块，以及分割后的数据块分别被存储在哪些DataNode数据节点上

功能：NameNode的主要功能是对内存以及I/O进行集中管理。

文件副本数目成为文件的副本系数这个也是由NameNode保存。

NameNode负责维护文件系统的名称空间

任何对文件系统名称空间或属性的修改都会被nameNode记录下来。

持续更新。