机器学习与统计建模 —— 协方差与相关系数
协方差
二维随机变量, 与 之间的协方差定义为:
其中,为分量的期望,为分量的期望
协方差 是描述随机变量是否相互关联的一个特征数。从协方差的定义可以看出,它是X的偏差 与Y的偏差 的乘积的数学期望。由于偏差可正可负,因此协方差也可正可负。
当协方差 时,称X与Y正相关
当协方差 时,称X与Y负相关
当协方差 时,称X与Y不相关
但是,协方差仅能进行定性的分析,并不能进行定量的分析,比如身高体重之间的协方差为209.1,它们之间的相关性具体有多大呢,协方差并没有给出定量的判断标准。因此我们引出相关系数的概念。
相关系数
二维随机变量, 与 之间的相关系数定义为:
其中,为 的方差, 为 的方差。
相关系数 是描述随机变量相互关联程度的一个特征数。
的时候,说明两个随机变量完全负相关,即满足
的时候,说明两个随机变量具有一定程度的线性关系。
,表示X与Y没有线性关系
的时候,说明两个随机变量完全正相关,即满足 (当两个随机变量相同,即) ,肯定满足线性关系,此时,,容易得到 )
举例
二维随机变量(身高X,体重Y)
由此我们可以看到,身高和体重呈正相关。
此时,,故身高和体重的相关性为