数据化思维之:大数据、小数据,从养数据开始

今天跟大家分享的是有关数据化思维相关的话题,那么到底什么是数据化思维?业内并没有一个非常准确的定义,也不是一句话或者几句话可以概括的。我这里只是把派可数据这么多年在商业智能BI行业、数据领域沉淀的一些经验和对某些具体问题的思考过程给大家总结一下,希望能够带给我们的企业在规划商业智能BI数据化运营体系的时候一些启发和借鉴。  

 

很多企业对于商业智能BI的认识和关注的焦点大部分体现在数据可视化大屏、各种可视化的图表,因为这些可视化的效果非常直观。但当一家企业真正去建设商业智能BI数据运营体系的时候,就会发现很多的问题,其中有很大一部分就是数据的问题。

 

举个例子,我们一家客户要做CRM会员系统的数据分析,但看了一下实际的数据,发现不是那么回事。比如姓名填个客户或者123456,年龄100岁,手机号码 13211111111,身份证号码也基本上是乱填的。

还有比如说在合同管理模块想做合同分析的时候,系统里面录入的客户企业信息在CRM系统中完全不存在,信息不匹配。

还有比如说想从城市这个角度统计会员信息,结果只有省份这个层级的信息验证是正确的,城市可能是随便选的,默认都选择了第一个城市,和实际情况完全不符合,数据从某种程度上来说就是缺失的。

一方面,这种低质量的数据与我们的业务系统开发建设有关系,比如有了身份证号年龄应该就可以自动算出来,手机号码完全可以通过某种方式做一下短信验证。另外一方面,我们的业务人员在录入用户数据信息的时候没有认真填写,或者客户填写的信息没有做认真的审核就入库了。

这些都是典型的脏数据进来、脏数据出去( Garbage In、Garbage Out )。

这些情况在实际的项目中出现的非常多,还有的就是通过线下的 EXCEL 数据表来维护大量的数据,EXCEL 表传来传去不安全,不同的人维护起来也很麻烦。

就这样的情况,还有企业告诉我们他们要上大数据,要上数据中台,实际上都非常的不现实。因为不管是大数据、还是小数据,首先都必须从养数据开始。

什么叫养数据?就跟养一个小孩子一样,需要持续的投资( 持续性 ),不光要喂TA饭吃( 数据资源 ),还要教育TA( 数据意识 ),才能茁壮成长成才。

数据化思维之:大数据、小数据,从养数据开始

 

第一, 数据线上化。凡是需要手工维护的数据,典型的就是在 EXCEL 表中维护的大量的业务数据,这种情况需要考虑把数据线上化。线上化的意思就是数据入库,不管是通过业务系统软件的开发建设还是通过临时的数据填报平台,用户录入的数据必须进入到数据库中。

 

第二, 数据标准化。数据标准化应该做到:1. 任何业务系统的开发建设,相关的数据格式和标准都需要提前的明确和约束下来。2. 任何数据的录入尽可能的从前端JS、程序逻辑、数据库数据表的约束三个层面进行约束性的检查。3. 任何涉及到档案信息,例如客户信息、供应商信息、产品信息等在多个系统会使用到的应该进行统一规范引用,做到一次维护、处处适用。

 

第三, 数据规范化。即使是现阶段无法线上化而通过 EXCEL 表来维护的这些数据也要养成一定的数据规范,比如固定的 EXCEL 原始数据二维表单的格式,这些都是为了以后当完成线上化建设的时候,历史的 EXCEL 表原始数据可以方便的导入到线上系统中。因此,业务人员在 EXCEL 中维护基础业务数据的时候,一定要养成规范的数据记录。自定义的分析可以引用基础表数据进行加工,但原始表数据一定要规范。

 

还有比如像一些商场的门店,商场收银和门店的系统是分离的,平时店长每天下班的时候把今日所有的订单合并一下录入到系统,这种数据纯粹就是为了对账使用。既看不出客户消费的时段,也看不出平均客户购买数量,因为有可能多个订单合并了。这种数据规范吗?从系统和数据的角度是规范的,但是从业务和分析的角度这种数据就不是规范的。

 

第四, 数据颗粒化。颗粒化就是数据层级的细化,比如像我们在项目中分析一些工业园区的能耗,由于所有的历史数据都维护到园区这个层级,能知道各个园区的水电能耗情况。但现在管理层需要看到各个园区企业的能耗排名情况,由于日常没有严格维护,每次就记录一个总数,就导致分析不到园区企业这个层面。就像在 EXCEL 中尽可能的增加列,对数据进行更加细致的分类,这样在每次记录数据的时候相当于把数据做的更加细致,以后分析的维度就更加的丰富了。

 

第五, 数据的标签化。标签化和颗粒化一样,都是通过增加列的形式对要描述的对象本身做更多的描述,但多了一种就是对标签化的值的丰富和细化。比如像合同管理中,除了维护基本的合同时间、合同客户、合同金额等基本信息,还可以通过增加更加丰富的标签来描述这个合同,比如合同类型,是产品、服务还是咨询合同;比如合同类别,是销售、采购、战略合作等合同;比如合同对象,是直销、渠道、合作伙伴等。

 

一方面通过增加合同类型、合同类别和合同对象来丰富数据标签数量,同时细化例如合同类型的值:产品、服务、咨询…来细化增加分析的视角。

 

第六, 数据的规模化。数据的内外结合,长期积累。在满足几点的情况下,尽可能收集、采集各种可以拿到的数据。一是查漏补缺,尽可能让内部业务管理相关的数据线上化、标准化、规范化、颗粒化和标签化。二是注重与行业、业务相关的外部数据的积累,这些外部的数据可能需要通过技术手段采集、购买相应的行业API接口数据、人工定期维护等方式来实现。总之,提前去规划这些事情,注重数据的价值。即使,有些数据可能在企业某一个发展阶段用不上,但当需要用上的时候,却发现需要耗费大量的人力、物力和时间精力才能解决这些问题,就会非常的被动。比如同一家企业说我们积累了十年的历史数据,很全、上百个G,另外一家企业说我们只积累了两年的数据,不多,不到几个G,在做数据分析的时候这两种感觉是完全不一样的。

 

数据化运营的建设不是“开发”出来的,而是“沉淀”出来的,企业需要沉淀的东西太多,但首先需要沉淀的就是数据。不管是大数据,还是小数据,还是从养数据开始吧。

 

(全文完)