数据分析04|数据分析基本概念

假如你是几年前开始接触数据分析,将会被告知数据分析就像厨师炒菜,按照菜谱(设计方案)采购食材(数据采集),然后是洗菜(数据处理),接着是下锅烹饪(数据分析),经过打荷(数据展现)后最终端菜上桌(撰写报告)。这也是数据分析的常规流程,而括号内的概念是每个入门数据分析人员要务必掌握的基本概念,至少要能了解这些步骤分别代表什么、能实现什么功能以及具体如何实现。

不过自从大数据概念进入广泛应用后,数据分析行业有了一次大的调整。虽然底层逻辑变化不大,基本流程还是“炒菜”,但是随着技术的更新换代以及业务需求的变化,这个“炒菜”的平台已由过去的“灶台”变成了现在的流水线。菜谱更加注重特色化与定制化,在不同地域、不同季节、不同时段向拥有不同特征人群推荐人们可能喜欢的菜谱(商业智能),食材来自全球购(海量数据),面对大量食材首先要解决存储问题(数据仓库),根据菜谱先做个大概的了解(数据探索)。然后根据收集的信息按照客户的口味进行一定取舍(数据预处理),食材热性、温性、平性、凉性、寒性有之分、烹饪方法炒、爆、熘、炸、烹、煎之别(元数据),不同性质的食材运用不同的烹饪方法做出各种各样的菜肴(数据元)。菜肴太多了不知道吃哪样,流水线会根据天气情况结合客户过去的用餐习惯甚至是当前心情、健康状态进行推荐(数据挖掘)。你可能会想有这么神奇吗?流水线是如何做到的,这又要涉及计算(分类算法)。到这儿,你可能已经晕乎乎了,想着吃个饭这么麻烦吗?当然不是,这一切都是在你看不到的层面自动进行的,展现在你面前的(数据可视化)永远是干净清爽的界面,你只需轻轻一点即可。

通过以上对比你会发现,随着技术的发展和需求的变化,数据分析所涉及的知识概念以及手段工具更加多样,而学习掌握这项技能所需要付出的时间精力也自然“水涨船高”,同时数据分析这项技术也越来越朝着体系化学科方向发展,数据科学与大数据技术也逐渐蔚然成观。所以,前路漫漫需要学习和掌握的东西有很多,眼前这些基本概念只是刚刚开始。

下面这张导图可以帮助你将上述例子中涉及到的一些数据分析基本概念串联起来:
数据分析04|数据分析基本概念