无监督学习-数学前奏(一)协方差矩阵
动机:
由于组内缺少数据集标签,而又没时间对数据进行标签,因此希望通过无监督学习方法,对数据进行分类。进而,通过对自动分类后的数据集进行采样标记,进而得到整体的数据标签。目前了解无监督学习,一般先了解K-means法和PCA,这涉及众多的数学知识,很多都已经不是很清晰了,此篇针对PCA中关于协方差部分,以此记录。
目的:
1.熟悉协方差,相关系数的出现的原因
2.熟悉协方差,相关系数公式
3.熟悉其内在原理
1.协方差出现的原因
为了了解两个随机变量的关系,因此引入协方差概念。由于协方差仅仅能描述两个随机变量是否有关系,而不能描述两个随机变量的关系密切程度,因此引入相关系数,以此描述两个随机变量的密切程度。
2.协方差、相关系数公式
设ρXY是随机变量X和Y的相关系数,则有
(1)∣ρXY∣≤1;
(2)∣ρXY∣=1充分必要条件为P{Y=aX+b}=1,(a,b为常数,a≠0)
3.内在原理
第一次遇见协方差是在计算两个随机变量和的方差
我们希望有一个公式描述两个随机变量之间的关系。由以前知识得到,当两个随机变量不相关,则上述公式中Cov(X,Y)为0。当Cov(X, Y)不为0, 则表示X, Y相关,即他们一定存在着某种神秘的关系。于是我们就琢磨,能否用这个协方差描述两个随机变量的亲密程度,我们不仅仅想知道两个随机变量是否相关,我们还想知道他们亲密到什么程度。
经过探索可得,协方差不能表示两个随机变量的亲密程度,例如
对随机变量X, Y分别乘以k常数,依照我们的期望,他们之间的关系不会改变。这就像两个向量拉伸或者压缩一样,他们本不应该更加亲密。而公式右边计算的结果却表明,他们更加亲密了。因此这不是我们想要的结果。
*******************
于是,在协方差的基础上,相关系数的概念就被提出来了
我们希望即使拉伸、压缩或者增加常量,随机变量之间的关系也不会改变。那么如何达到这样的效果?
经过思考,考虑单位化的随机变量,即将随机变量变为均值为零,方差为1.
通过这样对随机变量进行操作后,即使你对随机变量执行线性变换(就是加权求和,y=ax+b),X*,Y*的均值依然为0,方差依然为1。依照方差和均值的定义,这显而易见。
通过这么做,我们得到原始随机变量的单位化表示,即X*, Y*。再求这两个随机变量的协方差,简单求解可知
即相关系数,我们通过构造一个新的表达式来表示两个随机变量的亲密程度。
那么为什么这个表达式可以表示两个随机变量的亲密程度,它为什么可以达到我们的期望呢?
这个表达式性质如下:
1.当Cov(X, Y)为0,则ρXY也为零.
2.Y=aX+b时候,即我们认为两个随机变量最亲密的时候,ρXY计算为1。
**********
因此相关系数满足了我们的要求,即两个随机变量不相关时候,数值计算为0.在线性相关(我们认为这两个随机变量为一模一样的时候),计算的值为1.
我有一个疑问,提出这个概念的人是为什么一定将原随机变量转化为均值为0,方差为1的。干嘛不直接在原来的协方差基础上除以E(X)E(Y),而要除以 两个随机变量的标准差?这样做还有什么别的好处么,小白请赐教?
1相关链接