数据仓库、数据集市、数据湖,这些大数据名词你知道多少?

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

 

数据集市(Data Mart) ,也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。

从范围上来说,数据是从企业范围的数据库数据仓库,或者是更加专业的数据仓库中抽取出来的。数据中心的重点就在于它迎合了专业用户群体的特殊需求,在分析、内容、表现,以及易用方面。数据中心的用户希望数据是由他们熟悉的术语表现的。

 

数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

 

以上为三个名词的解释。

但是说到之间的联系,或者不同,或许在于数据仓库和数据集市之间更有的说:

数据仓库、数据集市、数据湖,这些大数据名词你知道多少?

数据仓库是一个集成的、面向主题的数据集合,设计的目的是支持DSS(决策支持系统)功能。在数据仓库里,每个数据单元都与特定的时间相关。数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。

单独的DB2数据库包括企业的数据集市。每个数据集市包括来自中央数据仓库的历史数据的子集,用以满足特定部门、团队、客户或应用程序分析和报告需求。主管此DB2数据库的系统称为数据集市服务器。尽管可以有许多数据集市,但只能有一个数据集市服务器。

数据集市组件需要IBM DB2 Universal Database Enterprise Edition,您必须在安装控制服务器前手工安装它。

IBM Tivoli Monitoringfor Transaction Performance仓库包创建结构适用于报告界面的数据集市。IBM Tivoli Monitoringfor Transaction Performance通过提供一个称为数据集市ETL的抽取、转换和装入(ETL)过程来实现此操作,该进程创建数据集市并将来自中央数据仓库的数据装入其中。

可以修改现有的数据集市或创建包含略微不同的数据的新数据集市,以迎合您所在环境下的特定报告需要。要修改或创建数据集市,必须熟悉数据库ETL过程以及数据集市在Tivoli。

那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。为了解决灵活性与性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

 

坦白来说:我们可以理解为,数据仓库就是数据集市的父亲,父亲(数仓)那里有很多的资金(数据),然后儿子(数据集市)拿着这些资金在各个领域中(多维的方式)进行投资(存储),然后获得更大的利益(生成面向决策分析需求的数据立方体)。

 

而对于数据湖呢?其价值在于:

数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。

 

简单来说,数据湖架构面向多数据源的信息存储,包括物联网在内。

 

但是这样其缺点也大大被放大出来:

大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。但数据湖架构可不仅仅是一个巨大的磁盘而已。

数据湖的数据持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对,这将抵消其容量成本。

在数据湖架构中,信息安全作为另一项挑战往往被人忽视。相比于其它,这种类型的存储安全要更加重要。数据湖架构从定义上看是将所有的鸡蛋放在一个篮子中。而如果其中一个存储库的安全被破坏,那么未知方将可能访问所有数据。很多数据都以易于读取的格式存储,像是JPEG、PDF文件——如果你的数据湖架构不够安全,那么信息损失很容易。