协方差与相关系数
转:https://zhuanlan.zhihu.com/p/57835337
协方差与相关系数也是在时域分析时常见的两个概念,他们都是用来描述数据“像不像”的。
1.协方差
对于信号X和Y,其协方差定义为:
可以描述为:(信号X减X期望)乘以(信号Y减Y期望)的期望。
当X和Y相等时,则: ,也就是方差。可见方差是协方差的一个特例。
好,我们看回来协方差。
我们有两段信号X和Y,其波形如下图:
信号X与信号Y
分别计算“(信号X减X期望)”和“(信号Y减Y期望)”,如下图:
然后将这两个信号相乘求期望,可以得到协方差。例子中的两个信号相似度比较高,可以看到负数会和负数相乘,正数和正数相乘,最后乘出来的期望值就会很大,也就是相关性比较高。
如果Y的值取负,图线会变成这样:
此时两个图线相乘,则会是正数和负数相乘,最后乘出来的期望值就会很小(负值),此时不是不相关,而是负相关性很强。
如果图线是这样:
此时两图线相乘后的期望值为0,表示两图线无关。
2.相关系数
为什么要提出相关系数呢,因为有些情况协方差无法很好的反应,比如:
如上图所示的X和Y,Y图线的幅值比X大两个数量级,其协方差的值可能是8。
对比下图:
其协方差可能是0.8。
也就是第二张图的协方差要小于第一张图,可是明显第二张图两个图线更“像”。
此时相关系数就可以登场了。相关系数的定义也很简单:
也就是用X、Y的协方差除以X和Y的标准差,标准差的含义在Mr.括号:时域分析——有量纲特征值含义一网打尽(https://zhuanlan.zhihu.com/p/57153601)中说过,标准差代表的是信号的离散程度且量纲与原始信号一致。
也就是说,在协方差除以标准差之后,由于信号幅值带来的影响被消除了。可以这样说:求两段信号的相关系数时,对其中的信号做幅值上的放大和缩小,是不会影响最终结果的。
而且相关系数的结果范围是在[-1,1]之中的,相关系数为1代表两段信号相似性最大,相关系数为-1代表两段信号相似性完全相反。这就使得我们有一个明确的衡量标准,这也是协方差达不到的效果。