浅谈数据中台与数据仓库的异同

一、数据仓库

数据仓库的概念大家并不陌生,关于数据仓库的理论和应用已经非常成熟,持续不断地帮助高层决策者和业务人员做分析和决策。简单来说,数据仓库是一个面向主题的、集成的、非易失性的,随时间变化的用来支持管理人员决策的数据集合,数据仓库的展现形式一般是报表和数据图形。

传统的数据仓库通常具有以下几个特点:

1. 业务主题性:比如对一个生产型企业来说公司的主题域是产品、订单、销售商、材料等,要解决应用问题可能是库存、销售、销售商等。其有业务是面向主题的。

2. 系统集成性:在传统数据仓库中,集成是最重要的,由于计算和存储的成本原因,其数据需要从不同的数据源抽取过来并集中,其数据的冗余度需要尽可能的降低,因此数据进入数据仓库中需要进行转化、格式化、重新排列和汇总等操作,其所有数据具有单一物理特性,都是结构化方式存在。在系统架构方面,也是以集中式存储和计算方式存在,新一代的数仓采用分布式计算,但软件产品采用集中部署方式存在。

3. 非易失性:数仓系统会记录所有记录,与业务系统相比,它不会对记录进行变化操作(updatedelete),它会保留所有记录的变化,但受限于成本和计算能力考虑,数仓不会记录全量明细数据,特别是日志数据,因此大部分数仓平台的数据容量在TB级别以下。

4. 时间变化性:数据仓库中每个数据单元只是在某一时间是准确的,因此数据单元的准确性与时间相关,数据仓库中的数据时间范围通常为5-10年。

二、数据中台

顾名思义,数据中台定位于计算后台和业务前台之间。目前对于数据中台的定义,市场上并没有统一。笔者认同数澜科技出版的《数据中台》一书中对其的定义:数据中台是一套可持续的让企业的数据用起来的机制,是一种战略选择和组织形式,依据企业特有的业务模式和组织架构,通过有型的产品和实施方法论支撑,构建一套持续不断地把数据变成资产并服务于业务的机制。数据来自于业务,并反哺业务,不断循环迭代,实现数据可见、可用、可运营

从以上定义可以看出,数据中台的关键职能与核心价值是以大数据赋能业务,满足不断变化的业务需求。数据中台是一套大数据产品+方法论+场景实现+运营的综合体系。

数据中台作为整个企业组织中所有业务的数据服务消费需求的提供方,通过自身的平台能力和业务对数据的不断滋养(业务数据化),会形成一套快速可靠的数据资产体系和数据服务能力(数据资产化和资产服务化),这样当出现新的市场变化,需要构建新的前台应用时,数据中台可以迅速供给数据服务(服务业务化),从而敏捷地响应企业的创新。业务产生数据,数据服务业务,业务与数据互相滋补,形成闭环。

数据中台屏蔽掉底层存储平台的计算技术复杂性,降低对技术人才的需求,让数据的使用成本更低。通过数据中台的数据汇聚、数据开发模块建立企业数据资产。通过资产管理与治理、数据服务把数据资产变为数据服务能力,服务于企业业务。数据安全体系、数据运营体系保障数据中台可以长期健康、持续运转。

三、数据仓库 VS 数据中台

那么,新晋网红数据中台和数据仓库有哪些明显的区别呢?可以用下面这张图来总结。

     浅谈数据中台与数据仓库的异同

 

首先表现在计算存储上,传统的数据仓库基于OLAP类型的数据库,后续发展为MPPHadoopGreenPlum混合架构。数据中台从一诞生起,就使用HadoopMPPRDSFlink等混合架构,随需搭配,满足各类数据计算的要求。

其次是不同的应用场景和价值体系,数据中台的应用场景比传统的数据仓库应用场景广泛得多。传统的数仓只是满足领导和业务人员数据决策的需要,因此更多的体现在报表输出,使用者以小部分的业务人员和决策层为主,新需求的开发周期以月甚至到年为计。而数据中台由于起家于互联网企业,其使用对象扩大到一线服务人员和商家企业,其业务需求更繁杂,包含商品推荐、精准广告展示、客户满意度评价等等诸多不确定性的应用场景,很难用传统的报表系统满足需求,因此必须要使用随需应变的数据服务来快速满足不断变化的业务需求。

除此之外,在体系架构上,数据中台是由多个组件构成,除了计算平台外,其方案由多个分布式服务系统提供,满足不同业务需求和高并发和系统自动扩容需求,除了大数据存储和计算平台外,还包含数仓建设、数据开发IDE、任务调度、数据同步服务、数据治理、对外统一数据服务、资产管理系统、实时流计算平台和开发平台,敏捷BI报表开发等多个组件,通过多个组件组成一整套方案。这一点传统的数据仓库是远远达不到的。

但数据中台和数据仓库也有一些相似的地方。在建模方法上,数据中台同样也采用传统的数仓维度建模法,按照事实表,维表来构建数据中台的数据模型,这一点二者是一致的。

 

总结:

随着DT时代数据量的指数化增长,企业对业务敏捷性的要求不断提高,传统的数据仓库已经无法满足企业的数字化转型要求,数据中台应运而来。数字化转型成功的企业,其内部和外部的交互均以数据为基础。业务的变化快速反馈在数据上,企业能够迅速感知并做出反应,而其决策与考核也基于客观数据。同时,数据是活的、是流动的,越用越多,越用越有价值。随着数据与业务场景的不断交融,业务场景将逐步实现通过数据自动运转和自动优化,进而推动企业迭代进入数字化和智能化的阶段。

但对于已经建设有数据仓库的企业,也没有必要完全推翻已有的数据仓库,它依然可以在决策分析领域帮助到领导和业务人员,发挥其重要的价值。

 

作者信息

蒋珍波,大数据咨询专家,擅长为客户提供科学合理的大数据解决方案,尤其擅长数据治理、数据中台解决方案。曾先后供职于东南融通、普元信息等公司,负责过数据仓库、大数据平台、数据中台、数据治理等售前咨询等工作,有*、大中型企业等多个行业经验。目前在数澜科技担任高级咨询专家。

欢迎同仁们商榷,可以发邮件给我:[email protected],或者加我微信:401172028,共同探讨数据治理相关领域的问题。