皮尔逊相关系数

皮尔逊相关系数衡量随机变量X与Y线性相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
皮尔逊相关系数公式为
皮尔逊相关系数
与之对应的相关距离为:
皮尔逊相关系数
通常情况下通过以下取值范围判断变量的相关强度:

范围 程度
0.8-1.0 极强相关
0.6-0.8 强相关
0.8-1.0 极强相关
0.4-0.6 弱相关
0.0-0.2 极弱相关或无相关

皮尔逊相关系数的适用范围

  • 当两个变量的标准差都不为零。
  • 两个变量之间是线性关系,都是连续数据。
  • 两个变量的总体是正态分布,或接近正态的单峰分布。
  • 两个变量的观测值是成对的,每对观测值之间相互独立。

理解皮尔逊相关系数

  • 两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数
  • 以看做是两组数据的向量夹角的余弦
    皮尔逊相关系数
    回归直线: y=gx(x) [红色] 和 x=gy(y) [蓝色]

如上图,对于没有中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。
对于没有中心化的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也可以被视作由两个随机变量向量夹角的余弦值。
皮尔逊相关系数
举个例子,例如,有5个国家的国民生产总值分别为 10, 20, 30, 50 和 80 亿美元。 假设这5个国家 (顺序相同) 的贫困百分比分别为 11%, 12%, 13%, 15%, and 18% 。 令 x 和 y 分别为包含上述5个数据的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法计算两个向量之间的夹角 (参见 数量积), 未中心化 的相关系数是:
皮尔逊相关系数
我们发现以上的数据特意选定为完全相关: y = 0.10 + 0.01 x。 于是,皮尔逊相关系数应该等于1。将数据中心化 (通过E(x) = 3.8移动 x 和通过 E(y) = 0.138 移动 y ) 得到 x = (−2.8, −1.8, −0.8, 1.2, 4.2) 和 y = (−0.028, −0.018, −0.008, 0.012, 0.042), 从中