学习统计学之三大相关系数
Pearson相关系数
是对两个数值型的变量相关性的描述
计算公式:
它是两个变量的协方差与标准差乘积的比值。它对数据有两个要求:
1、 实验数据通常假设是成对的来自于正态分布的总体。为啥通常会假设为正态分布呢?因为我们在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验,而 t检验是基于数据呈正态分布的假设的。
2、实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。例如心跳与跑步的例子,万一这个人的心脏不太好,跑到一定速度后承受不了,突发心脏病,那这时候我们会测到一个偏离正常值的心跳(过快或者过慢,甚至为0),如果我们把这个值也放进去进行相关性分析,它的存在会大大干扰计算的结果的。
Spearman等级相关系数
Spearman等级相关系数是用来度量定序型变量间的线性相关关系,它的设计思想和Pearson相关系数的一致,但由于数据是定序型,所以使用数据的秩来代替计算。
计算公式:
Kendall ????相关系数
它和spearman相关系数一样度量定序型变量间的相关线性关系,它利用变量的秩计算一致对数目(U)和非一致对数目(V)V,如果两变量具有较强的正相关关系,则一致对数目U应较大,非一致对数目V应较小。
总结
在实际应用中,如果两个变量为数值型变量,则可以同个Pearson相关系数来度量相关性,但该系数受异常点影响较大,所以需要搭配散点图来确定相关性,如果两变量为定序型,则可以使用剩下的两种相关系数来度量。