相关与不相关都是有价值的!
在对数据进行相关性分析时,通常我们是基于自己的经验,认为x与y可能相关,希望通过定量的分析证明我们的经验,但是实际上往往历史的数据并不支持我们的经验。即使不支持,这也是有价值的,也可以帮我们纠正一些错误的认识。请看下面的案例,在一家公司中搜集了37个历史项目的数据,我们想验证一下:
1 是否项目的规模越大,工期延误的时间就越长?
2 是否项目的规模越大,工期偏差率越大?
3 是否项目的工期越长,工期延误的时间就越长?
4是否项目的工期越长,工期偏差率就越大呢?
这4个猜想主要是基于越大的事物,越不好把握,我们对它的预测能力越差,是否真的如此呢?
基于历史的数据,我们画了散点图如下:
图一 规模与工期偏差的散点图
由上图可以看出,工期偏差与规模之间没有相关性。做相关性分析的检验:
相关: 工期偏差, 总规模
工期偏差 和 总规模 的 Pearson 相关系数 = 0.147
P 值 = 0.387
定量的分析也验证了我们的观察结果:工期偏差与项目的规模是无关的。
再来看规模与工期偏差率之间是否相关:
图二 规模与工期偏差率的散点图
做相关性分析的检验:
相关: 总规模, 估算工期偏差率(%)
总规模 和 估算工期偏差率(%) 的 Pearson 相关系数 = -0.073
P 值 = 0.668
显然,二者也是无关的!
那工期偏差与实际工期的是否相关呢?
图三 工期偏差与实际工期的散点图
直接观察不能确定上图是否存在相关性,我们可以做相关性分析的检验,结果如下:
相关: 实际工期, 工期偏差
实际工期 和 工期偏差 的 Pearson 相关系数 = 0.451
P 值 = 0.005
可以发现二者之间存在弱相关。这样就验证了我们的第3个猜想:在此公司内,项目工期越长,工期延误的时间越长。
再来看对第4个猜想的验证:
图四 估算工期偏差率(%)与实际工期的散点图
由上图可以看出,项目的实际工期与工期偏差率是没有相关性的!我们也做相关性分析的检验:
相关: 估算工期偏差率(%), 实际工期
估算工期偏差率(%) 和 实际工期 的 Pearson 相关系数 = 0.053
P 值 = 0.756
可以发现二者之间是不相关的,也就是说项目的工期偏差率与项目的工期无关。
综上所述:
工期延误的时间与项目规模无关,与项目工期正相关。
工期偏差率与项目规模、项目工期都无关。
所以:
我们需要尽早交付!增量交付!