相关性分析
借鉴自清风老师课程。
总体皮尔逊Person相关系数
协方差:反映x和y的相关性。
两个变量本身就是线性的关系,皮尔逊相关系数才能起到作用。
一定会给要画出散点图再下结论是否相关。
对相关系数大小的解释
对皮尔逊相关系数进行假设检验:
1)提出原假设和备择假设
2)在原假设成立的条件下,利用我们要检验的量构造出一个符合某一分布的统计量
(注:统计量相当于我们要检验的量的一个函数,里面不能有其他的随机变量;这里的分布一般有四种:标准正态分布、t分布、 卡方分布和F分布。)
对于皮尔逊相关系数r而言,在满足一定条件下,我们可以构造统计量:
,可以证明t是服从*度为n-2的t分布。
3)将我们要检验的这个值带入这个统计量中,可以得到一个特定的值(检验值)。
4)由于我们知道统计量的分布情况,因此我们可以画出该分布的概率密度函数pdf,并给定一个置信水平,根据这个置信水平查表找到临界值,并画出检验统计量的接受域和拒绝域。
更好用的方法:P值判断法。
皮尔逊相关系数假设检验的条件:
实验数据通常假设是成对的来自于正态分布的总体。
实验数据之间的差距不能太大。
每个样本之间是独立随机抽样的。
对数据进行正态分布检验:
正态分布JB检验(大样本n>30)
夏皮洛-威尔克检验(小样本 )
Q-Q图(要求数据量非常大):(不太推荐用)
选两个分布,来比较两个概率分布的分位数。
如果没有通过以上的相关性检验,则我们使用斯皮尔曼spearman相关系数。
斯皮尔曼相关系数和皮尔逊相关系数的选择:
1)连续数据、正态分布、线性关系,用pearson相关系数是最恰当的,当然用spearman相关系数也可以,就是效率没有pearson相关系数高。
2)上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3)两个定序数据之间也用spearman相关系数,不能用pearson相关系数。
希望对你有所帮助,笔芯~