数据仓库与数据湖

一、数据仓库与数据湖的区别

一是存储数据类型不同。数据仓库中存储的主要是结构化数据,对于加载到数据仓库中的数据,首先需要定义数据存储模型。而数据湖以其原生格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据,并且在使用数据之前,不对数据结构进行定义。

二是数据处理模式不同。数据仓库是高度结构化的架构,数据在清洗转换之后才会加载到数据仓库,用户获得的是处理后数据。而在数据湖中,数据直接加载到数据湖中,然后根据分析的需要再处理数据。

三是服务对象不同。从用户差异上来看,数据仓库适合企业中大数据产品开发人员和业务用户。而数据湖最适合数据分析师或数据科学家,他们直接基于数据沙箱做*探索和分析,这些人要求有技术背景,会写代码或熟悉SQL。

二、为何选择数据湖

  1. 随着存储引擎的出现,Hadoop让存储不同的信息变得更加容易。需要使用数据湖将数据建模到企业范围的模式中。

  2. 随着数据量,数据质量和元数据的增加,分析质量也会提高。

  3. 数据湖提供业务敏捷性。

  4. 算法可用于进行有利可图的预测。

  5. 没有数据孤岛结构。Data Lake提供360度的客户视图,使分析更加健壮。

三、数据胡架构

下图显示了Business Data Lake的体系结构。较低级别表示大部分处于静止状态的数据,而较高级别表示实时交易数据。

  • 1 摄取层 :左侧的层描述了数据源。数据可以批量或实时加载到数据湖中

  • 2 洞察层:右侧的层代表研究方面,使用系统的见解。SQL,NoSQL查询甚至excel都可用于数据分析。

  • 3 HDFS是结构化和非结构化数据的经济高效的解决方案。它是系统中静止的所有数据的着陆区。

  • 4 蒸馏层从存储轮胎中获取数据并将其转换为结构化数据以便于分析。

  • 5 处理层运行分析算法和用户查询,具有不同的实时,交互,批处理以生成结构化数据,以便于分析。

  • 6 统一操作层管理系统管理和监视。它包括审计和熟练管理,数据管理,工作流程管理。数据仓库与数据湖

 

四、总结

数据湖相对于以往的关系型数据库、传统式数据仓库,更多体现的是一种数据存储技术上的融合。数据湖的提出,改变了用户使用数据的方式,同时,数据湖也整合了各种类型数据的分析和存储,用户不必为不同的数据构建不同数据存储库。