DataOps三原则,数据平台运营必读!

DataOps三原则,数据平台运营必读!

作者:Ronen Schwartz

Informatica全球技术与生态战略执行副总裁

 

一个越来越清楚的事实是:数据驱动型企业都在努力维护和管理数据,以获得战略优势。虽然存在大量的可用数据,但我们仍然不能为旧有数据提供经济有效的数据质量诊断服务,太多企业无法提供卓越的多渠道客户体验,无法保证其数据已经妥善治理和安全防护,也无法保证这些数据符合世界上各种行业标准和数据保密法规的要求。

 

在数据驱动方面,这些企业为什么不采取更多的突破措施呢?原因之一就是他们根本不清楚如何在企业中运营数据平台。

 

DataOps:在大规模扩展的同时不牺牲速度和质量

 

我和很多数据负责人交流过,他们都希望提升数据的质量,并利用这些数据更快地提供更好地洞察力。他们很清楚,应在不牺牲速度和质量的前提下扩大数据项目的覆盖范畴。

 

但具体应该怎么做呢?答案就在于一种被称之为DataOps(数据运营,可以理解为数据的DevOps)的新运营方式。DataOps通过将DevOps的理念延伸到数据世界,提供了一种数据平台的运营方式。DataOps也是数据系统性思维的支柱之一,具体可参见我们CEO Amit Walia 的文章《数据的系统性思维为什么如此重要》。

 

DevOps建立在三大主要原则之上:持续集成、持续交付和持续部署。如何将这些应用软件的原则延伸到数据管道和数据驱动型应用方面呢?下面,就让我们针对每一项原则做一些更为细致的探讨。

 

DataOps三原则,数据平台运营必读!

持续集成:数据的发现、集成和准备

 

这一过程涉及数据工程师如何通过某种可持续的自动化方式对新的数据源和数据管道进行集成、准备、清洗、管控和发布。当数据科学家、数据分析人员和数据专员合作使用由人工智能/机器学习技术驱动的数据目录和数据准备工具,进行数据的自动发现和自动编排,提高搜索的便捷性,推荐数据转换方式,以及自动设定数据和数据管道的规格参数时,数据工程师们就可以立刻开始工作了。利用流媒体和变更数据捕获(CDC)技术,数据工程师能将数据管道转换成实时流,并将其用于类似实时客户互动所用到的预测分析算法。

 

数据工程师利用由元数据驱动的开发工具,将原有的数据管道作为新的、更快的处理框架,当作新兴技术一样使用,使其永不过时,特别是在云端。而且,诸如智能结构发现和动态模板这样的由人工智能驱动的功能,可以在数据源发生变化时保护您的数据管道。这意味着您可以在任何地方运行您所获取的管道,无论是在本地还是在云计算环境。

 

持续交付:在整个企业范围内提供可信数据

 

这一阶段涉及的是在整个企业范围内实施数据治理,让您所有的数据消费应用都能使用高质量的数据。数据治理解放了您的数据,实现了数据的大众化,从而确保了在整个企业范围内交付的数据都是可信、安全和受保护的,并满足合规性要求。在这一阶段,数据编排一直在持续进行。在所有利益相关者(例如,数据工程师、数据科学家和分析人员、数据管理专员、数据治理专员、InfoSec分析师等)中,数据是以协同化方式交付的。

 

例如,如果数据科学家能够很方便地找到他们认为可信的数据,他们就可以通过设计和验证相应的预测分析模型进行快速迭代。在开发、测试和人工智能模型的训练过程中,应确保按照数据治理策略来应用数据质量规则和数据脱敏功能,这一点非常关键。只有这样做,分析算法和机器学习模型才能交付积极的业务成果。当数据在整个企业范围内移动时,应通过一个统一的、智能的数据平台将数据治理、数据编目、数据质量及数据保密工作整合在一起,只有这样才能确保所有数据都是可信的和受保护的。

 

人工智能/机器学习技术增强了人类的认知和协同能力,有助于在整个企业实施数据治理。针对受治理的数据,人工智能/机器学习技术可以将业务术语自动映射到实际数据集和具体策略之中。在不久的将来,人工智能/机器学习技术将可利用相应的法规进行数据解析,并自动生成数据治理策略,以进一步降低合规风险。

 

持续部署:使用户都能用上最新的数据

 

在这一阶段,您可以为业务部门的自助服务赋能,并使企业内的各类用户都能用上可信的数据。通过这种实践,贯穿数据管道开发过程所有阶段的每一个变化,都会被分发给分析人员和业务用户所使用的各种数据消费应用。对许多业务工作来说,数据驱动型应用已变得十分重要,这些业务工作包括:客户服务、营销、电子商务、欺诈检测、供应链管理等。这些都意味着,业务专家可以更快地访问到最新的数据。要做到这一点,最好的方式就是采用水平扩展和基于微服务的架构。为实现敏捷性和灵活性,这种架构通常部署在云端。正是凭借人工智能和机器学习技术在数据管道监测和管理方面发挥的作用,数据管道才能持续运行,且其性能和容量利用率才能得到不断优化。

 

DataOps和系统思维

 

正如我在前文提到的,DataOps是数据系统性思维的支柱之一。如今,数据已成为数字化转型的强劲推动力。数据驱动型组织凭借系统性思维方法及以下手段应对他们所面临的挑战:

 

1.统一的混合型智能数据平台

2.通过DataOps理念开展平台运营

3.利用AI实现作业自动化并增强人类的知识

4.利用元数据获得发现数据和理解数据的能力

5.利用数据治理来确保对敏感数据的合理使用和安全保护

 

关于机构如何应对自身面临的数据挑战,我有两点建议:

▶ 在技术方面,采用由人工智能驱动的统一智能数据平台。

▶ 在数据平台的运营中,遵循系统思维方法以及DataOps三大原则。

 

这不是一朝一夕就能完成的任务,而是一段战略旅程。不过,如果能释放数据的力量,您将获得巨大的回报。