【产品规划】数据治理产品的智能化设想(系列一)

上周参与了大数据筑基工程对现有数据平台的对标分析工作,各厂家要分析出自己平台的现状、差距以及要未来要改进的点,从而为筑基工程制定出接下来的行动计划。

通过分析,发现公司产品在数据清洗、数据质量以及数据分析方面的覆盖度还是挺好,但在其它诸如统一安全、统一管理、数据共享等领域,则显得有点单薄,当然这也与总体方案对这方面的规划本身很超前也有关系。抛开其它方面不谈,产品在数据质量、数据清洗这两方面的满足程度,应该与这个公司的历史渊源、实践案例有很大的关系。这两个产品应该是继承自td,已经有了多年的实践,因此可以提炼出诸如数据质量检查模板、检查规则等这样具有一定抽象性的概念,让系统既能做到灵活配置,也具有极大的可扩展性。

但在这两个月的熟悉过程中,我也感受到了现有产品的不足,借着这次分析,对想法做了一定的归纳,主要包括以下几点:

  • 功能分散,相互之间的联系松散。像元数据、数据标准、数据质量和数据清洗,这几个数据治理相关的功能,缺乏有效的配合,每个功能都以子系统的形式独立存在,没有有效融合为整体。比如元数据管理,其中的表、字段、ETL等的元数据都可以做到导入、管理、查询等,但并没有为数据质量、数据清洗等提供支撑。
  • 功能的易用性不够,系统过于“重”。所谓的过于重,是指现有的功能多数用于项目上线后的日常生产,对于项目前期的数据质量和清洗,仍然是以“人肉”的方式去完成,现有的工具不能提供有效的支持。造成这个局面的原因,包括功能配置繁琐,使用不划算,也包括相关功能的深度不够,不能为实际工作提供帮助等。
  • 系统缺少对项目实践经验的沉淀与积累的支撑,知识仍然停留在相关个人的脑子中,不能形成有效的共享。数据治理是大数据项目中的关键环节,也是工作量最大的环节,对项目成员的要求很高,经验的多少直接影响到治理的效果。现在项目中的团队成员,有几个资深老手,拥有多年的项目实施经验。在实际工作当中,一般是以这几个成员为主,牵头组织相关任务的开展,比如,数据建模、数据入库等,不过由于每个人的管理素养各不相同,导致任务的执行效率存在着较大的提升空间。

对于元数据、数据标准、数据质量、数据清洗这几个工具,下图是我认为的相互关系流程图:
【产品规划】数据治理产品的智能化设想(系列一)
通过上述流程,可以实现如下几个目标:

  • 打通功能孤岛,形成完整功能。现有的几个功能,更多是完成了其本职工作,用于应标、宣讲问题不大,但应该发挥更多的作用,尤其是要将无形的”经验“沉淀为有形的功能中,比如,数据建模是不是可以用元数据管理起来,形成一个个的领域模型,对于新实施的项目,直接可以在已有领域模型的基础上,直接导入形成物理模型,然后进行定制化的微调;
  • 引入智能化,实现自动化。数据挖掘分析不仅仅可以用于业务场景,同样也可以用于数据治理。比如,通过对字段名称、表数据的分析,系统自动生成初步的数据质量检查规则和数据质量报告,经人工审核并调整以后,系统根据内置的清洗模板生成清洗任务及清洗流程,人工修改后部署上线。这个目标的实现,既需要将清洗经验沉淀为系统规则,同时也要利用语义分析、聚类算法等进行智能化的分析。数据治理自动化的实现,可以让项目实施的重点,从编写清洗脚本转变化数据分析、提炼规则上来,除了提升实施效率之外,也能让数据治理的效果更加可度量。同时,也可以让团队成员一定程度摆脱数据清的脏活累活,从工程师晋升为分析师和行业专家;
  • 数据治理的功能要从单独部署的产品向“SAAS+产品”的方向演进,SAAS平台是智库,是前端工具的大脑,本地部署的产品是定制化的工具,经过裁剪后用于各行业的数据应用,支撑客户的数据治理需求。经过项目的实践积累,SAAS平台中的规则不断丰富,最终可以让项目的复制越来越容易,项目实施可以像搭积木一样,由业务专家通过挑选合适的组件完成数据治理。