相关性分析

借鉴自清风老师课程。

 

总体皮尔逊Person相关系数

协方差:反映x和y的相关性。

相关性分析

两个变量本身就是线性的关系,皮尔逊相关系数才能起到作用。

一定会给要画出散点图再下结论是否相关。

相关性分析

对相关系数大小的解释

 

对皮尔逊相关系数进行假设检验:

 

1)提出原假设和备择假设

2)在原假设成立的条件下,利用我们要检验的量构造出一个符合某一分布的统计量

(注:统计量相当于我们要检验的量的一个函数,里面不能有其他的随机变量;这里的分布一般有四种:标准正态分布、t分布、 卡方分布和F分布。)

对于皮尔逊相关系数r而言,在满足一定条件下,我们可以构造统计量:

 相关性分析,可以证明t是服从*度为n-2的t分布。

3)将我们要检验的这个值带入这个统计量中,可以得到一个特定的值(检验值)。

4)由于我们知道统计量的分布情况,因此我们可以画出该分布的概率密度函数pdf,并给定一个置信水平,根据这个置信水平查表找到临界值,并画出检验统计量的接受域和拒绝域。

 

更好用的方法:P值判断法。

 

皮尔逊相关系数假设检验的条件:

实验数据通常假设是成对的来自于正态分布的总体。

实验数据之间的差距不能太大。

每个样本之间是独立随机抽样的。

 

对数据进行正态分布检验:

 

正态分布JB检验(大样本n>30)

 

夏皮洛-威尔克检验(小样本 )

 

Q-Q图(要求数据量非常大):(不太推荐用)

选两个分布,来比较两个概率分布的分位数。

 

如果没有通过以上的相关性检验,则我们使用斯皮尔曼spearman相关系数。

 

斯皮尔曼相关系数和皮尔逊相关系数的选择:

 

1)连续数据、正态分布、线性关系,用pearson相关系数是最恰当的,当然用spearman相关系数也可以,就是效率没有pearson相关系数高。

2)上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。

3)两个定序数据之间也用spearman相关系数,不能用pearson相关系数。

希望对你有所帮助,笔芯~   相关性分析