hadoop是什么?我来试试

刚刚进行了解,目前市面上的资料应该也不少,每个人的理解多少都会有些偏差,真理也就是用来被推翻的。

记录下小僧几个务虚的笔记很简洁

部署模式:严格上来分应该为四类,大都分为3类

1:本地模式        2:伪分布模式        3:完全分布式模式        4:HA完全分布式模式

区分依据:运行在几个JVM进程、几台机器。

MapReduce(分布式计算,并行编程模型与执行框架)

核心操作:map和reduce

map:是把一组数据,一对一的映射为另一组数据

reduce:是对一组数据进行归约

reduce函数输入类型必须匹配map函数的输出类型。

hadoop是什么?我来试试

Map函数与Reduce函数

首先继承Mapper,并重写实现它的map方法 ,至于里面的逻辑是什么,输出类型还得看自己的需求。

hadoop是什么?我来试试

有了Map函数还需要Reduce函数

reduce需要继承reducer并重写它的reduce方法

hadoop是什么?我来试试


    HDFS(分布式存储)

结构:M/S结构(主从)

部署:Master只运行一个namenode节点

每一台slave运行一个datanode实例

NameNode:是HDFS的守护程序

负责:记录大数据文件如何被分割成数据块,以及分割后的数据块分别被存储在哪些DataNode数据节点上

功能:NameNode的主要功能是对内存以及I/O进行集中管理。

文件副本数目成为文件的副本系数这个也是由NameNode保存。

NameNode负责维护文件系统的名称空间

任何对文件系统名称空间或属性的修改都会被nameNode记录下来。

持续更新。