SPSS学习笔记(六)线性相关及回归
目录
一、线性相关分析
分析:
案例:某研究者开展一项研究,拟探讨胆固醇浓度(mmol/L)与久坐时间((mins/day))是否有关。研究者收集了研究对象每天久坐时间(变量time)和胆固醇浓度(变量cholesterol)。
观察两个连续变量之间的相关性,可以使用Pearson相关分析。
需要考虑5个假设。
假设1:两个变量都是连续变量。
假设2:两个连续变量应当是配对的,即来源于同一个个体。
假设3:两个连续变量之间存在线性关系,通常做散点图检验该假设。
假设4:两个变量均没有明显的异常值。Pearson相关系数易受异常值影响。
假设5:两个变量符合双变量正态分布。(为化简过程,假设4、5暂未考虑)
建立检验假设,确定检验水准
H0:总体相关系数ρ=0
H1:总体相关系数ρ≠0
α=0.05
操作:
1、首先散点图判断是否线性相关,构建线性相关
2、分析-相关-双变量
结果及分析:
或
这两个变量间存在线性关系,根据Shapiro-Wilk检验符合正态分布(P>0.05),并且不存在异常值。
本研究中,对相关系数进行假设检验的结果P<0.001,按检验水准α=0.05,拒绝原假设H0,说明久坐时间长与高胆固醇浓度有关,并且Pearson相关系数r=0.791,说明久坐时间(time)和胆固醇浓度(cholesterol)存在正相关关系。
二、直线回归分析
分析:
案例:某研究者拟开展一项研究探讨胆固醇浓度与久坐时间是否有关,并希望通过久坐时间预测胆固醇浓度。研究者收集了研究对象每天久坐时间(变量time)和胆固醇浓度(变量cholesterol)。
可以使用简单线性回归分析,但需要考虑7个假设。
假设1:因变量是连续变量。
假设2:自变量可以被定义为连续变量。
假设3:因变量和自变量之间存在线性关系。
假设4:各观测值之间相互独立,即残差之间不存在自相关。
假设5:因变量没有显著异常值。
假设6:残差的方差齐。
假设7:残差近似正态分布。(为化简过程,假设4~7暂未考虑)
建立检验假设,确定检验水准
H0:总体回归系数β=0,【】与【】之间无直线回归关系
H1:总体回归系数β≠0,【】与【】之间有直线回归关系
α=0.05
操作:
1、图形-图表构建器
2、分析-回归-线性
结果及分析:
- 采用简单线性回归模型分析久坐时间对胆固醇浓度的影响。通过绘制散点图,直观判断两者之间存在线性关系,并通过绘制标准化残差散点图和带正态曲线的直方图和P-P图,判断残差方差齐且近似正态分布。
- 第一个指标R是回归的多重相关系数。实际上,简单线性回归并不关注R值。
第二个指标R2(R Square)代表回归模型中自变量对因变量变异的解释程度,但是,R2是会夸大自变量对因变量变异的解释程度。
第三个指标是adjusted R2(Adjusted R Square)。校正了R2对于总体自变量对因变量变异解释程度的夸大作用。
久坐时间可以解释胆固醇浓度变异的62.5%,影响程度中等(调整R2= 62.2%)。
2、F=161.926,P<0.001,拒绝原假设H0,本研究回归模型具有统计学意义,提示因变量和自变量之间存在线性相关。如果P>0.05,则说明该回归没有统计学意义,因变量和自变量之间不存在线性相关。
3、本研究的回归方程可以表示为:y= b0+(b1*x),b0是截距,b1是斜率。
如果可以得到这两个指标,我们就可以根据自变量预测因变量了。
截距被称为“Constant”,即3.64856,无论截距的统计检验结果如何,是否有统计学意义,在进行简单线性回归时都无需十分关注这项指标。
需要关注的指标是斜率。斜率代表的是自变量每改变一个单位后因变量的变化值。在本研究中,久坐时间的斜率是0.00632,表示久坐时间每增加1分钟,胆固醇浓度增加 0.00632mmol/L。
另外,也可以得到斜率的95%CI为0.00533-0.00731mmol/L,Sig栏是斜率的统计学检验结果(P<0.001),提示斜率值与0的差异有统计学意义,也说明胆固醇浓度与久坐时间存在线性关系。如果斜率的P值大于0.05,证明斜率没有统计学意义,即斜率值与0的差异没有统计学意义,说明因变量和自变量之间不存在线性关系。
将回归系数【】,截距【】代入回归方程,得到:cholesterol= 3.64856+(0.00632×time)。久坐时间每增加1分钟/天,胆固醇浓度增加0.00632 (95% CI:0.00533-0.00731)mmol/L。
PS. 具体过程参考:https://www.mediecogroup.com/zhuanlan/lessons/109/