数仓建设应用 -SaaS

做一件事之前肯定要了解其原因,公司的SaaS系统已沉淀上亿的商户,数仓也经过一年的改造,已基本成型,基于此做个总结。

背景

随着公司业务的发展,频繁迭代和跨部门的垂直业务单元变得越来越多。但由于缺乏前期规划,导致后期数仓出现了严重的数据质量问题,这给数据治理工作带来了很大的挑战。在数据仓库建设过程中,总结的问题包括如下几点:

  • 缺乏统一的业务和技术标准,如:开发规范、指标口径和交付标准不统一。
  • 缺乏有效统一的数据质量监控,如:列值信息不完整和不准确,SLA时效无法保障等。
  • 业务知识体系散乱不集中,导致不同研发人员对业务理解存在较大的偏差,造成产品的开发成本显著增加。
  • 数据架构不合理,主要体现在数据层之间的分工不明显,缺乏一致的基础数据层,缺失统一维度和指标管理。

计划

在现有大数据平台的基础上,借鉴阿里成熟OneData体系,构建合理的数据体系架构、数据规范、模型标准和开发模式,以保障数据快速支撑不断变化的业务并驱动业务的发展,最终形成我们自己的OneData理论体系与实践体系。

OneData探索

在数据建设方面,阿里巴巴提出了一种OneData标准,如图所示:

数仓建设应用 -SaaS

基于此,我们做了如下思考:

1. 对阿里OneData的思考

  • 整个OneData体系覆盖范围广,包含数据规范定义体系、数据模型规范设计、ETL规范研发以及支撑整个体系从方法到实施的工具体系。
  • 实施周期较长,人力投入成本较高。
  • 推广落地的工作比较依赖工具。

2. 对公司实际情况的思考

  • 现阶段工具保障方面偏弱,人力比较缺乏。
  • 现有开发流程不能全部推翻重来。

经过综合考量,我们发现直接全盘复用他人经验是不合理的。那我们如何定义自己的OneData,即能在达到目标的前提下,又能避免上述的难题呢?

我们自己的想法

首先,结合行业经验,自身阶段的实践及以往的数仓经验,我们预先定义了OneData核心思想与OneData核心特点。

OneData核心思想:从设计、开发、部署和使用层面,避免重复建设和指标冗余建设,从而保障数据口径的规范和统一,最终实现数据资产全链路关联、提供标准数据输出以及建立统一的数据公共层。

OneData核心特点:三特性和三效果

  • 三特性:统一性、唯一性和规范性
  • 三效果:高扩展性、强复用性和低成本性

数仓建设应用 -SaaS

OneData:我们的策略

OneData即有核心思想又有核心特点,到底怎么来实现核心思想又能满足其核心特点呢?通过以往经验的沉淀,我们提出两个统一方法策略:统一归口、统一出口。