大数据1-Hadoop概述

特点

Lucene框架是Doug Cutting开创的开源软件，用Java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完成的查询引擎，和搜索引擎，es也是基于Lucene框架
2001年底，Lucene成为Apache的一个子项目
对于海量数据，Lucene面对和Google同样的困难，存储数据困难，检索速度慢；
学习和模仿google解决这些办法：微型Nutch
Google是Hadoop的思想之源，google在大数据的三篇论文：
1. GFS----HDFS
2. Map-Reduce ----MR
3. BigTable — HBase
2003年-2004年，Google公开了部分GFS和MapReduce思想细节，以此为基础 Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，是Nutch性能飙升
2005年，Hadoop作为lucene的子项目Nutch的一部分引入Apache基金会
2006年，Map-Reduce和Nutch Distribute File System（NDFS）分别被纳入Hadoop项目中

大数据1-Hadoop概述
核心：为了解耦

NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等（索引）；
1. 元数据：描述数据的数据，即描述下面dn的数据
DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和；
Secondary NameNode（2nn）：用来监控HDFS状态的后台辅助程序，每隔一段时间获取HDFS元数据的快照

ResourceManager（RM）的作用

NodeManager（NM）的作用

ApplicationMaster（AM）的作用

Container

Map将计算过程分为两个阶段Map和Reduce阶段

Map：

如现在有100T数据需要分析：

将100T的数据拆分为N份，这个过程称为Map过程

Reduce：

把Map阶段拆分后分析的结果，进行汇总的过程；

大数据1-Hadoop概述