数据相关性分析

相关性分析主要用来描述变量之间的线性相关程度。

在二元变量的相关性分析过程中,常用的有Pearson相关系数Spearman秩相关系数以及判定系数

Pearson积矩相关系数

Pearson 相关评估两个连续变量之间的线性关系。当一个变量中的变化与另一个变量中的成比例变化相关时,这两个变量具有线性关系。

参考资料

适用条件:

  • 两个变量均应由测量得到的连续变量
  • 两个变量所来自的总体都应该是正态分布,或接近正态的单峰对称分布。
  • 变量必须是成对的数据。
  • 两变量间为线性关系。

注意事项:

  • 线性相关的前提条件是X、Y都是服从正态分布的。正态分布
  • 当散点图有线性趋势时,才可以进行线性相关分析。
  • 必须在假设检验认为相关的前提下才能以r的大小判断相关程度(显著性水平)。
  • 相关关系并不一定是因果关系,有可能是伴随关系。

判断步骤:

  1. 找出两个变量的正确相应数据。
  2. 画出散点图,通过散点图判断相关性。
  3. 散点图有线性趋势时,计算相关系数
  4. 对结果进行评价和检验

相关系数的取值:数据相关性分析,大于0且越接近于1,则表示越是正相关;反转,小于0且越接近于-1则表示越是负相关。

等于0则认为零相关。

数据相关性分析

 

Spearman秩相关系数

是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。

对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可

Spearman 相关评估两个连续或顺序变量之间的单调关系。在单调关系中,变量倾向于同时变化,但不一定以恒定的速率变化。Spearman 相关系数基于每个变量的秩值(而非原始数据)。

 

判定系数

判定系数是相关系数的平方。

 

计算积距Pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。

研究表明,在正态分布的假设下,Pearson和Spearman在效率上是等价的,而对于连续测量数据,更适合Pearson相关系数来进行分析。在实际应用中,上述两种相关系数都需要对其进行假设检验,使用t检验方法检验其显著性水平以及确定其相关程度。

最好始终用散点图来检查变量之间的关系。相关系数仅度量线性 (Pearson) 或单调 (Spearman) 关系。也有可能存在其他关系。

推荐先观察散点图