机器学习与统计建模 —— 协方差与相关系数


协方差

二维随机变量(XY)XY 之间的协方差定义为:

Cov(X,Y)=E[XE(X)][YE(Y)]

其中,E(X)为分量X的期望,E(Y)为分量Y的期望

协方差 Cov(X,Y) 是描述随机变量是否相互关联的一个特征数。从协方差的定义可以看出,它是X的偏差 [XE(X)] 与Y的偏差 [YE(Y)] 的乘积的数学期望。由于偏差可正可负,因此协方差也可正可负。

  • 当协方差 Cov(X,Y)>0 时,称X与Y正相关

  • 当协方差 Cov(X,Y)<0 时,称X与Y负相关

  • 当协方差 Cov(X,Y)=0 时,称X与Y不相关

但是,协方差仅能进行定性的分析,并不能进行定量的分析,比如身高体重之间的协方差为209.1,它们之间的相关性具体有多大呢,协方差并没有给出定量的判断标准。因此我们引出相关系数的概念。


相关系数

二维随机变量(XY)XY 之间的相关系数定义为:

机器学习与统计建模 —— 协方差与相关系数

其中,Var(X)X 的方差, Var(Y)Y 的方差。

相关系数 Corr(X,Y) 是描述随机变量相互关联程度的一个特征数。

  • Corr(X,Y)=1的时候,说明两个随机变量完全负相关,即满足 Y=aX+ba>0

  • 0<|Corr(X,Y)|<1 的时候,说明两个随机变量具有一定程度的线性关系。

  • Corr(X,Y)=0,表示X与Y没有线性关系

  • Corr(X,Y)=1的时候,说明两个随机变量完全正相关,即满足 Y=aX+ba>0(当两个随机变量相同,即Corr(X,X) ,肯定满足线性关系,此时,Cov(X,X)=Var(X),容易得到 Corr(X,Y)=1


举例

二维随机变量(身高X,体重Y)

机器学习与统计建模 —— 协方差与相关系数

由此我们可以看到,身高和体重呈正相关。

此时,Corr(X,Y)=209.4/(10.224.4)=0.84,故身高和体重的相关性为 0.84