企业数据质量提升六步法

企业数据质量提升六步法

企业数据质量提升六步法

转载本文需注明出处:微信公众号EAWorld,违者必究。

数据已成为现代企业发展的驱动力,高质量的数据是支撑业务管理和业务决策的基础,企业数据的显著价值与数据质量状况以及数据质量管理机制之间的矛盾,推动企业着手进行数据质量管理工作。一方面,企业意识到数据的价值,数据能为业务赋能;另一方面企业数据质量不高,包括数据逻辑问题,数据准确性问题,重复记录问题,数据缺失问题等,企业不能及时发现数据质量问题,缺乏有效的解决方法和手段,IT和业务协调不畅,造成很大的困扰。数据质量问题的存在,不仅影响单个业务正常开展,还会影响与该业务相关的企业业务顺利开展,甚至,不准确的统计数据会影响到管理层的正确决策。

幸运的是,经过10多年的摸索,现在已经有了一整套行之有效的管理数据质量的方法。数据质量管理是指对数据全生命周期可能出现的各类问题,进行识别、检测、度量、预警以及处理等一系列管理活动。通过数据质量管理,提升企业数据的价值,让企业有数据可用,有高质量的数据可用,有高价值的数据可用,对企业管理决策、日常经营、客户管理等领域发挥积极有效作用。

在介绍具体提升数据质量的六步方法之前,有五项数据质量管理的原则,有必要说明一下。这五项原则如下图所示:

企业数据质量提升六步法

 

一、价值导向原则

企业数据浩如烟海,企业数据质量目标应与业务目标一致,解决数据质量可以从业务价值高、共享程度高、监管有明确要求的数据入手,持续迭代提升。数据质量管理的对象往往是下列数据:

  • 支持企业核心业务价值链的数据

  • 企业业务数据量大的数据

  • 数据共享性高的基础数据

  • 通过分析,能进一步产生业务价值的数据

  • 有明确监管要求的数据。

二、数据全生命周期管理

数据全生命周期管理,从数据层面看,建立体系化的数据质量管理,事前预防,事中控制,事后审核和根因分析。

数据产生前,以预防为主,包括建立数据质量管理规范,业务人员数据质量培训,企业级数据标准;数据产生时,系统以数据质量检核为主,包括要求数据产生时,遵从数据标准约束,进行系统级数据质量检核和全局型数据质量检核。数据产生后,以闭环管理为主,包括发现问题,分析问题,解决问题。问题解决后,团队还需要事后以根因分析和考核为主,对有代表性重复发生的问题,解决根本原因,此外建立知识库,考核评价,执行奖惩,做为辅助手段。

很多人问:系统没建成,没有数据的时候,有没有需要数据质量管理要做的?回答是,有。在系统规划、设计、开发和上线阶段,都有数据质量管理需要做的工作。各阶段数据质量工作如下:
 

企业数据质量提升六步法

规划阶段:遵从企业级数据模型,遵从数据服务与共享机制

设计阶段:数据模型遵从统一企业级数据标准

开发阶段:有明确质量要求的数据,在页面开发时要做数据检核。

上线阶段:合规性评审

数据产生:符合准确性、完整性,遵从企业统一的数据标准,并进行必要的检核

数据维护:发现问题、分析问题、解决问题

三、闭环管理

在质量管理的发展过程中形成了众多的质量管理理论,PDCA循环通过计划、执行、检查、处理四个循环反复的步骤进行质量管理。

企业数据质量提升六步法

PDCA映射到数据问题闭环管理,包括数据问题发现,到问题定位,跟踪问题处理,完善问题知识库,到考核评价。形成一种可持续运行,可持续解决问题的机制。

四、建立数据共享机制

设计数据流转架构,建立数据共享机制,可以实现基础数据的一致性。


在企业中,由于业务价值链是整体的,所以业务系统之间存在大量的逻辑关系。数据集成和主数据管理共享能够很好地解决同类数据在系统之间传递与共享的问题。数据能够在业务系统之间流转和共享可以有效地防止人为操作所带来的数据不一致问题。

五、解决问题前移原则

数据质量问题解决越靠后,成本越高,所以,数据质量管理,采用解决问题前移原则。源头解决问题时,对于指标数据,找到相关基础数据的源系统、数据血缘关系,解决问题。


数据产生前,从结构上预防数据质量问题产生,包括数据模型、数据服务与共享、数据标准遵从。在数据进入系统时,把好第一道质量关。在数据录入环节、系统间数据交换环节、外部数据引入环节,设置相应的检核规则,排查错误数据。当检核发现存在数据质量问题时,要追溯到问题数据产生的源头解决问题。同时,注意解决问题的时效,越早解决影响越小。


企业每天都在产生数据,数据质量管理是长期运营型的工作。企业需要构建数据质量运营体系,包括制度与规范,组织与角色,技术与方法,以及支撑工具,用体系的力量支持数据质量管理可持续发展。


下面重点介绍数据质量提高的六步法。

企业数据质量提升六步法

 步骤一:识别关键数据和业务规则

识别关键数据和业务规则实际是梳理业务数据质量需求。数据质量管理工作首先关注企业最重要的数据,确定需要提高质量的关键数据。关键数据往往是监管要求的数据、财务价值高的数据、客户影响面大的数据,以及支持企业部门直接业务协作的数据。


业务规则可以从管理规范,业务手册,流程规范和业务调研过程中获得。


知道了关键数据,以及相应的业务规则,就可以初步搭建数据度量规则的轮廓。


企业中的主数据往往是关键数据,是数据质量管理的重点对象,包括组织主数据、客商主数据、产品主数据、物料主数据、项目主数据等,这些主数据的全生命周期伴随了企业经营的完整过程,往往是跨组织、跨部门、跨系统、跨业务流程的。

步骤二:初始数据评估与问题分析

在《DAMA 数据管理知识体系指南》中,明确了数据质量评价指标框架。对关键业务数据进行数据质量评估,评估维度如下:

企业数据质量提升六步法

准确性:指数据正确表示“真实”实体的程度。
完备性:指是否存在必要的数据。
一致性:一致性指确保数据值在数据机内和数据集之间表达的相符程度。
完整性:完整性包括与完备性、准确性和一致性相关的想法。
合理性:合理性是指数据模式符合预期的程度。
及时性:指数据的更新频度符合预期。
唯一性:是指数据集内的任何实体不回重复出现。
有效性:是指数据值与定义值域一致。

对关键业务数据进行质量问题评估,数据问题分析,以及问题影响分析,确定下一步数据质量工作的重点,形成业务规则度量表。


根据统计分析,造成数据质量不佳的原因包括数据产生环节(也称数据源环节)和数据加工环节,具体如下:

1、缺乏企业级的数据标准

由于缺乏统一企业级数据标准,造成不同部门对相同信息项的业务含义理解的不一致,比如账户余额,有的理解为期末余额,有的理解为期初余额。数据背后的业务含义不一致,直接导致统计结果的大相径庭。

2、员工录入信息不准确


导致员工录入信息不准确主要是两个因素,第一个因素,缺乏统一的录入标准和约束。比如客户名称,企业没有规定对公客户的名称是企业营业执照的全名,这样会导致出现各种不同的简称。


第二个因素,由于员工录入时引入了错误的信息,书写错误,比如身份证号码填写错误;或者信息理解错误,比如金额单位,直接把元看成万元;或者收集的信息不正确。


3、新旧系统切换或数据的ETL过程问题


数据新旧系统切换,以及数据的抽取、转换和加载环节造成技术错误和非技术错误,包括数据的重复抽取、数据加载转换规则错误等。


企业引用了数据质量不佳的外部数据。

4、客户数据


客户录入的信息不准确。

5、系统改造


系统改造时,数据的孤立修改,影响到上下游数据问题。


企业可对照上述的几个方面,识别出造成数据质量不佳的根本原因,进行有针对性的数据质量提升。

步骤三:数据质量检核

数据质量问题检核是保证数据质量的关键,前面两步梳理了业务需求,制定了数据度量规则。在数据质量问题检核时,要将业务度量规则,转换成IT系统可以执行的检核方法。通过调度检核任务,对生产数据进行检核,生成检核结果。

企业数据质量提升六步法


在这一步,将业务度量规则转化为系统可执行的检核方法,调度检核任务,生成检核结果,采集问题文件,查询检核结果,并生成数据质量检核报告。

步骤四:问题报告

对检核出来的数据问题进行问题报告,通知数据相关责任方。


一般情况下,企业信息化系统比较多,数据质量问题发生后,为了降低问题数据的影响,要求相关数据责任方尽快解决质量问题,解决问题的时限纳入考核。


为了方便业务人员及时了解数据质量问题,在系统浏览基础上,增加定时的短信通知。
通知内容,包括数据质量问题描述,数据质量问题相关源系统,检核依据,数据质量问题责任人等。通知方式,数据质量问题描述,数据质量问题相关源系统,检核依据,数据质量问题责任人。

步骤五:数据问题解决

针对企业数据质量问题产生,可以从以下方面提升数据质量:

1、针对员工录入问题,可以制定数据检核规则,持续进行数据质量检核

对于数据录入的逻辑错误,设置检核规则,比如首笔贷款发放时间不能早于合同签订时间。对于员工输入笔误,比如身份证信息,用身份证检核规则进行检查。对于用户名称输入不准确的情况,可以与用户标准库的用户名称进行比对,检查其是否与标准名称相符。


针对员工信息掌握不准确的问题,从流程审核上进行控制,关键数据和信息输入需要有人员审核,也就是将记录型系统改造成流程型系统。


另外,在应用系统的输入页面,增加输入项解释、非空判断,对于其它系统里已有的信息,通过建立关联关系导入系统,避免重复录入。员工填写信息时,尽量地让用户对输入信息进行选择,而不是完全手工输入信息。

2、新旧系统切换或数据的ETL过程问题


新旧系统切换时,仔细分析新旧系统数据项的业务含义,识别出具有二义性的信息项,比如不同系统中相同的名称,其业务含义不一样,对这样的信息要进行仔细分析。同时,避免重复导入,避免技术问题引入问题数据。


3、客户数据录入


客户数据录入时,增加对录入数据的判断和检查。对于可以标准化枚举的信息项,尽量让客户选择,而不是手工输入,这样保证数据的规范性。

4、系统改造


建立以元数据为基础的数据血缘分析,当系统改造时,采用该工具分析系统改造对本系统数据的影响,以及上下游的关联影响。


对于有数据挖掘价值的历史数据,按业务系统或者主题分批对数据进行剖析、清洗,提高既有数据的质量。

步骤六:根因分析与持续提升

数据质量问题解决后,分析数据质量产生的根本原因。对于有普遍意义的数据问题,纳入知识库管理。

要解决数据质量的根本原因,业务层面往往涉及人员培训,技术层面往往涉及数据模型、主数据共享、元数据梳理以及数据标准。数据模型,对接业务核心价值链,解决无数可用的问题。主数据共享,解决基础数据一致性问题。元数据梳理,检查模型定义,有助于定位数据质量问题。数据标准落标,解决数据规范问题。

总之,数据质量管理贯穿数据的全生命周期,是一个长期的、需要持续开展的工作,需要业务人员和技术人员共同努力,才能获得高质量的数据,满足数据的完整性、规范性、一致性、准确性、唯一性和及时性等需求,持续提升企业的数据价值,支持业务管理和业务决策,让高质量的数据成为企业持续发展的驱动力。

推荐阅读

数据治理之数据脱敏技术研究

探索图数据库在数据资产可视化中的应用

数据实时同步之MongoDB

企业数据质量提升六步法关于作者:稻花香,普元项目经理,熟悉企业信息化架构规划、数据管理与应用规划,数据治理领域知识,曾主导多家金融机构和企业的数据治理项目。企业信息化架构高级顾问,企业数据治理、数据标准专家和践行者。

企业数据质量提升六步法关于EAWorld:微服务,DevOps,数据治理,移动架构原创技术分享。长按二维码关注!