统计推断——假设检验——两变量关联性分析
一、线性相关描述
问题:两变量间是否存在相关或关联?
身高与体重
尿铅排出量与血铅含量
凝血时间与凝血酶浓度
血压与年龄
1、线性相关
例 在某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女,测得每人的基础代谢(kJ /d)与体重(kg)数据,见表。据此数据如何判断这两变量间有无关联?
例 计算上个例子中基础代谢Y与体重X之间的样本相关系数。
说明该14名40~60岁健康妇女的基础代谢和体重之间呈正相关,相关程度较大。
二、假设检验与秩相关
1、假设检验
例 计算例1中基础代谢与体重之间的样本相关系数。
说明该14名40~60岁健康妇女的基础代谢和体重之间呈正相关,相关程度较大。
1.1、线性相关系数的统计推断
1.2、常用的检验方法:
1. 查相关系数临界值表(附表)
2.检验
例 =0.964, 检验相关是否具有统计学意义。
检验:
<0.001。可认为40~60岁健康妇女的基础代谢与体重之间存在正相关。
1.3、总体相关系数的区间估计:
例:=0.964, 试估计总体相关系数的95%置信区间。
(1.4086,2.5906)
(0.8872,0.9888)
1.4、应注意的问题
1). 散点图显示变量间有线性趋势时,才进行相关分析
2). 线性相关适用于双变量正态分布资料
3). 正确理解相关关系,“相关不等于因果”
4). 出现异常值时慎用相关
5). 分层资料盲目合并易出假象。
2、秩相关
线性相关系数(Pearson correlation coefficient)
秩相关(rank correlation, Spearman coefficient),或称等级相关
适用于:不服从双变量正态分布;总体分布类型未知;数据本身有不确定值;等级资料。
例 某研究者研究10 例6 个月~7 岁的贫血患儿的血红蛋白含量与贫血体征之间的相关性,结果见表,试作秩相关分析。
分别对、的观察值从小到大排序编秩,以秩次代入公式计算
秩相关系数的假设检验
类似于积矩相关系数,关于秩相关系数的检验假设为
:, :,= 0.05
当≤50时,可 查书后关于秩相关系数的临界值表,若超过临界值,则拒绝 ;>50 时,也可采用式(10-5)和式(10-6)
作检验。
例 对以下例子的秩相关系数作假设检验。
例中算得=-0.741,= 10,查秩相关系数临界值表,,<0.05,按= 0.05 的水准,拒绝。可以认为
贫血患儿的血红蛋白含量与贫血体征之间有负相关关系。
三、两个分类变量的关联分析
对分类变量间的联系,可作关联(association)分析
对两个分类变量交叉分类计数所得的频数资料(列联表)作关于两种属性独立性的检验
1、交叉分类2×2列联表
对样本量为的一份随机样本同时按照两个二项分类的特征(属性)进行交叉分类形成一个2×2交叉分类资料表,也称为2×2列联表(contingency table)。
例:为观察行为类型与冠心病的关系,某研究组收集了一份包含3154个个体的样本,研究者将观察对象按行为类型分为A型(较具野心、进取心和有竞争性),B型(较沉着、轻松、和做事不慌忙)。对每个个体分别观察是否为冠心病患者和行为类型两种属性,2×2种结果
分类记数如下表所示。试分析两种属性的关联性。
:属性 A 与 B 互相独立, :属性 A 与 B 互相关联。
独立性检验就是考察成立与否。
:行为类型与冠心病之间互相独立
:行为类型与冠心病之间有关联
=0.05
将表中各数据代入公式(9-9),
,, <0.05,说明行为类型与冠心病之间存在着关联性。
四、多分类资料的关联分析
例 欲探讨职业类型与胃病类型是否有关联,某医生将收治的310名胃病患者按主要的职业类型与胃病类型两种属性交叉分类,结果见表。
问职业类型与胃病类型间有无关联?
:胃病类型与职业无关联
:胃病类型与职业有关联
=0.05