SPSS学习笔记(六)线性相关及回归

目录

一、线性相关分析

分析

操作

结果及分析

二、直线回归分析

分析

操作

结果及分析


一、线性相关分析

分析:

案例:某研究者开展一项研究,拟探讨胆固醇浓度(mmol/L)与久坐时间((mins/day))是否有关。研究者收集了研究对象每天久坐时间(变量time)和胆固醇浓度(变量cholesterol)。

观察两个连续变量之间的相关性,可以使用Pearson相关分析。

需要考虑5个假设。

假设1:两个变量都是连变量

假设2:两个连续变量应当是对的,即来源于同一个个体。

假设3:两个连续变量之间存在线性关系,通常做散点图检验该假设。

假设4:两个变量均没有明显的异常值。Pearson相关系数易受异常值影响。

假设5:两个变量符合双变量正态分布。(为化简过程,假设4、5暂未考虑)

 

建立检验假设,确定检验水准

H0:总体相关系数ρ=0

H1:总体相关系数ρ≠0

α=0.05

操作:

1、首先散点图判断是否线性相关,构建线性相关

2、分析-相关-双变量

SPSS学习笔记(六)线性相关及回归

结果及分析:

SPSS学习笔记(六)线性相关及回归SPSS学习笔记(六)线性相关及回归

这两个变量间存在线性关系,根据Shapiro-Wilk检验符合正态分布(P>0.05),并且不存在异常值

本研究中,对相关系数进行假设检验的结果P<0.001,按检验水准α=0.05,拒绝原假设H0,说明久坐时间长与高胆固醇浓度有关,并且Pearson相关系数r=0.791,说明久坐时间(time)和胆固醇浓度(cholesterol)存在正相关关系

二、直线回归分析

分析:

案例:某研究者拟开展一项研究探讨胆固醇浓度与久坐时间是否有关,并希望通过久坐时间预测胆固醇浓度。研究者收集了研究对象每天久坐时间(变量time)和胆固醇浓度(变量cholesterol)。

可以使用简单线性回归分析,但需要考虑7个假设。

假设1:因变量是变量

假设2:自变量可以被定义为变量

假设3:因变量和自变量之间存在线性关系

假设4:各观测值之间相互独立,即残差之间不存在自相关

假设5:因变量没有显著异常值

假设6:残差的方差齐

假设7:残差近似正态分布。(为化简过程,假设4~7暂未考虑)

 

建立检验假设,确定检验水准

H0:总体回归系数β=0,【】与【】之间无直线回归关系

H1:总体回归系数β≠0,【】与【】之间有直线回归关系

α=0.05

操作:

1、图形-图表构建器

2、分析-回归-线性

SPSS学习笔记(六)线性相关及回归

结果及分析:

  1. 采用简单线性回归模型分析久坐时间对胆固醇浓度的影响。通过绘制散点图,直观判断两者之间存在线性关系,并通过绘制标准化残差散点图和带正态曲线的直方图和P-P图,判断残差方差齐且近似正态分布。
  2. 第一个指标R是回归的多重相关系数。实际上,简单线性回归并不关注R值。

第二个指标R2(R Square)代表回归模型中自变量对因变量变异的解释程度,但是,R2是会夸大自变量对因变量变异的解释程度。

第三个指标是adjusted R2(Adjusted R Square)。校正了R2对于总体自变量对因变量变异解释程度的夸大作用。

久坐时间可以解释胆固醇浓度变异的62.5%,影响程度中等(调整R2= 62.2%)。

SPSS学习笔记(六)线性相关及回归

2、F=161.926,P<0.001拒绝原假设H0,本研究回归模型具有统计学意义,提示因变量和自变量之间存在线性相关。如果P>0.05,则说明该回归没有统计学意义,因变量和自变量之间不存在线性相关。

SPSS学习笔记(六)线性相关及回归

3、本研究的回归方程可以表示为:y= b0+(b1*x),b0是截距,b1是斜率。

如果可以得到这两个指标,我们就可以根据自变量预测因变量了。

截距被称为“Constant”,即3.64856,无论截距的统计检验结果如何,是否有统计学意义,在进行简单线性回归时都无需十分关注这项指标。

需要关注的指标是斜率。斜率代表的是自变量每改变一个单位后因变量的变化值。在本研究中,久坐时间的斜率是0.00632,表示久坐时间每增加1分钟,胆固醇浓度增加 0.00632mmol/L。

另外,也可以得到斜率的95%CI为0.00533-0.00731mmol/L,Sig栏是斜率的统计学检验结果(P<0.001),提示斜率值与0的差异有统计学意义,也说明胆固醇浓度与久坐时间存在线性关系。如果斜率的P值大于0.05,证明斜率没有统计学意义,即斜率值与0的差异没有统计学意义,说明因变量和自变量之间不存在线性关系。

SPSS学习笔记(六)线性相关及回归

回归系数【】,截距【】代入回归方程,得到:cholesterol= 3.64856+(0.00632×time)。久坐时间每增加1分钟/天,胆固醇浓度增加0.00632 (95% CI:0.00533-0.00731)mmol/L

PS.  具体过程参考:https://www.mediecogroup.com/zhuanlan/lessons/109/