数据分析

数据分析过程

1)明确分析目的和思路
2)目标数据确定和采集
3)数据处理
4)数据分析
5)结果可视化及结果支持的决策

四大基本数据分析算法

1)趋势分析
一般用于核心指标的长期跟踪
最好的产出是比值:①环比②同比③定基比
比如2017年4月份比3月份GDP增长了多少,这就是环比,环比体现了最近变化的趋势,但有季节性的影响。为了消除季节性的影响,推出了同比,比如:2017年4月份比2016年的4月份GDP增长了多少,这就是同比。定基比就更好理解,就是固定某个基点,比如将2017年1月份的数据作为基点,定基比则为2017年5月份的数据和2017年1月份的数据做对比。
2)对比分析
横向对比:横向对比就是跟自己比。最常见的数据指标就是需要跟目标值比,来回答我们有没有完成目标;跟我们上个月比,来回答我们环北增长了多少。
纵向对比:简单来说就是跟他人比。我们要跟竞争对手比,来回答我们在市场中的份额和地位是怎样的。
3)象限分析
一般p2p产品注册用户都是有第三方渠道引流的,如果按照流量来源的质量和数量可以划分四个象限,然后选取一个固定时间点,比较各个渠道的流量性价比,质量可以用留存的总额这个维度作标准。对于高质量高数量的渠道继续保持,对于高质量低数量的渠道扩大引入数量,低质量低数量pass,低质量高数量尝试一下投放的策略和要求,这样的象限分析可以让我们在对比分析的时候得到一个非常直观和快捷的结果。
4)交叉分析
从多个维度细分数据,从中发现最为相关的维度来探索数据变化的原因
常见的维度有:
分时:不同时间段数据是否有变化。
分渠道:不同流量来源数据是否有变化。
分用户:新注册用户和老用户相比是否有差异,高等级用户和低等级用户相比是否有差异。
分地区:不同地区的数据是否有变化。
交叉分析法是一个从粗到细的过程,也可以叫做细分分析法。

数据分析六大思路

1、流程

1.1行动步骤
数据分析
①SEMMA范式:
1.Sample,数据抽样,保证数据的效度和信度;
效度是指数据的准确性,也指选择的数据和分析目标及业务目标是吻合的;
信度是指数据的稳定性,要保证样本数据有代表性,且在一定周期内不能有过大的波动(否则模型不稳定);
2.Explore,数据特征探索及预处理,e.g. 看数据的分布情况、对数据进行标准化等;
3.Modefy,明确问题、模型选择、方案调整;
4.Model,执行建模方案;
5.Assess,结果评估(准确性、稳定性、是否符合业务预期、效益如何);
②CRISP-DM:
1.商业理解:确定业务目标,评估现有资源,确定分析目标,制定解决方案;
2.数据理解:数据采集,探索分析,数据质量验证;
3.数据准备:筛选数据,数据清洗,整合数据,变量衍生;
4.建立模型:模型选择,检验设计,模型建立,结果评估;
5.模型评估:分析结果和业务目标匹配度确认,检查1-4步的执行过程,确定下一步行动;
6.结果部署:规划部署方案、监控和维护方案,输出项目报告,项目复盘;
e.g. 一个报表上线的基本步骤如下:
需求登记 --> 方案规划 --> 需求排期 --> 数据ETL–> 代码编写 --> 数据验证 --> 报表上线
数据分析
1.2分步转化
将每个步骤都要进行,甚至每个步骤分成更详细的步骤
1.3闭环迭代
闭环流程分为3个部分:事前,事中,事后
事前:确定目标,选定用户,制定方案,确定检验标准等;
事中:实时数据监控(是否达到预期),不同方案赛马,备用方案启用等;
事后:对整个流程复盘,总结经验,CSS归类(Continue做先前已验证的正确的事,Stop做错误的事,Start做新的正确的事)
常用的闭环迭代框架是PDCA,通过计划§、实施(D)、检查©、总结(A)4个步骤,循环迭代,螺旋上升。

2、分类

1、四种方法:
二分法,非此即彼,e.g. 网站新客、老客,贷款审批结果分为通过申请、拒绝申请等;
并列分类,多个分类(子集)构成一个全集,e.g. 用户地域可以按省份划分,按年龄可以将用户分为70后、80后、90后、00后等,女性用户群体可以分为时尚丽人、都市白领、家庭主妇等;
等级分类,e.g. 会员等级——铁牌、铜牌、银牌、金牌、钻石、皇冠,城市等级——一线、二线、三线、四线;
矩阵象限,e.g. 波士顿矩阵,RFM象限
2、规则:
按主体分类,
e.g. 按社会关系模型,用户角色可以是父母、配偶、子女、朋友等;
e.g. 按照群体划分,可以分为一般情况和特殊情况、二八原则等;
按属性分类,依据主体(比如用户)的属性进行类别划分。
e.g. 用户画像时可以考虑以下属性:

  1. 社会属性:收入水平、学历、职业、婚姻情况等
  2. 位置属性:居住地、工作地、从手机端还是PC端登录等
  3. 生物属性:年龄、性别、种族等
  4. 心理属性:品牌偏好、购买行为、优惠偏好等

3、对比

3.1横向对比(和同类,不同组,整体相比较)
3.2纵向对比(和自己的历史数据相比较)

4、关联

看数据指标不要只看一个“点”,还要看一条“线”上的前后连接的环节,进而从“面”或“体”的角度去看整个大环境中都有哪些因素相互作用。
数据分析
4.1同时关联
多个因素(X)同时发生作用一起促成了现象(Y)的发生
4.2延时关联
现象的产生可能存在延迟效应,要考虑当前现象(环节)的前置的“因”和后置的“果”。

5、层级

5.1自上而下的拆解
数据分析
5.2自下而上的拆解
就是将个体组成群体,将小的指标组合成一个综合指标。
e.g. 用户的标签分为基础标签和复合标签,基础标签就是单个用户属性来定义的(例如性别、婚否等),复合标签则是考虑多个基础标签的组合(例如,某个典型的用户群体画像是:女性+单身+白领+一线城市);
e.g. 规划用户标签时,先用头脑风暴想出一批指标,然后进行归类、筛选、组合;

6、优化

第一步是保证数据的准确性和稳定性,第二步就是优化,提高准确性、提高效率和效益。
优化包含两部分的内容:缩小当前和目标的差距,直到达成并超越目标;在成本或者预算固定的前提下,使收益最大化。
6.1缩小当前和目标的差距
数据分析
6.2成本固定,最大化收益
数据分析