简介

大数据是现如今兴起的名词，提到大数据肯定少不了Hadoop、Spark、Kafka等等名词。那么Hadoop与大数据有什么关系。Hadoop又与HDFS、MapReduce、Spark有什么关系？

一句话解释版本：

大数据是与传统数据仓库相对应的概念，它是一种理念与方法。

Hadoop是与Oracle、Teradata相对应的概念，它是实现大数据理念的手段与工具。

Hadoop是一个内核与一大堆组件共同组合成的生态系统。

大数据的概念

与传统数据仓库一样，大数据也是数据存储与处理的一种方式。

近年来，数据量的爆炸性增长使得传统数据仓库无法满足海量数据的存储、处理、挖掘等需求。大数据从3个角度填补了传统数仓的缺陷。

由于数据源的多样化，企业数据由之前的交易数据拓展现在的行为数据、竟对数据、CRM、财务数据。很多企业也获得了大量的实时数据。

因此，数据量的增长使得大多数数据仓库很难存储PB，甚至EB级别数据。大数据则给这种存储提供了可能性。

海量数据带来的结果就是昂贵的存储成本。

在传统数据仓库中，加硬盘、扩容、加节点，都是极其费成本的措施。之前由于数据的增长幅度不明显，历史数据保存时间较短，因此不会出现频繁扩容的情况。但是由于数据源与数据量的暴涨，数仓扩容越来越频繁，维护成本越来越高昂。大数据则提供了廉价的数据存储方式，使得海量的数据能够用低成本维护。

海量数据的存储紧接着就是海量数据的挖掘与分析。在大多数传统数据仓库中，一旦存储的数据量达到一定程度，一旦设计不当，非常有可能计算速度显著变慢。这种计算速度的迟缓在数据达到PB级时会很显著。因此，在这之上，机器学习与深度学习更是不可能，因此一个SELECT * FROM语句都会无比的慢。

大数据也相对的弥补了这一点，它使得数据的处理、运算、挖掘变得更快。为海量数据的应用提供了更多可能。

提到大数据，就会提到Hadoop。

就像Teradata、Oracle、MySQL是传统数据仓库的实现工具一样，Hadoop也是大数据的实现方式。大数据与数据仓库一样，都是一种数据存储与处理的概念。但是Hadoop是真正实现大数据理念的工具。它是实际的代码与软件，实现了大数据传达的海量数据低成本存储，快速数据处理的理念。

2006年项目成立的时候，“Hadoop”只代表了两个组件：HDFS与MapReduce。但现在，Hadoop代表“核心”（Core Hadoop项目）以及与之相关的的生态系统。

Hadoop是由一个核心和一个生态系统组成。

下图是Hadoop核心以及一些运用场景较多的组件介绍。

3.4.1 大数据、Hadoop以及Hadoop生态的概念与区别

在hadoop的发展过程中，越来越多的组件被开发出来，并融合到Hadoop这个大环境中。我们可以想象，一开始，Hadoop只是一个小小的内核，随着时间，内核周围包裹了一层一层的组件，它变得越来越庞大。

所以现在，提到Hadoop，提到大数据时，往往指的是Hadoop的核心以及那些围绕在核心四周的组件。我们经常听说的Spark、Kafka，Hbase这些概念，都是作为Hadoop的拓展组件出现的。