分类数据的分析-卡方检验运用
概念
分类数据
观测值只能被分为几个类别中的某一类,如某个公民的国籍,也称定性数据。
多项试验
当分类数据只涉及到两个响应结果(是或不是,成功或失败等等),就是一个二项分布。如果分类数据涉及到两个以上的响应结果,则是一个多项试验。
多项试验的特点:
3.对于每次试验,这k中结果发生都概率用p1,p2,...,pk表示,并且在每次试验中都相同,其中p1+p2+...+pk=1
5.感兴趣的随机变量是格子计数(cell counts):n1,n2,...,nk,即落入k个类中每一类的观测值数目。
分类概率的检验
单向表
只有一个变量被分类,试验的结果可以汇总在一个单向表(one-way table)内
举例:
一家大型连锁超市想根据消费者在店内购买的面包的品牌,来了解消费者偏好。假设这家超市销售三个品牌的面包——两个市场上的大品牌A和B,以及这家连锁店自由品牌。为进行这次调查,随机抽取来150个消费者作为观测对象,将每中品牌的皮娜好数量记录下来,如下表:
品牌A |
品牌B |
自由品牌 |
61 |
53 |
36 |
首先,这个试验符合多项试验对条件。我们将p1,p2,p3分别表示为消费者偏好品牌A,B和自由品牌对比例,这个比例的真实数值未知。
为了判断消费者是否对这些品牌存在特殊偏好,我们将原假设确定为消费者对面包品牌存在相同对偏好(即p1=p2=p3=1/3),备选假设是消费者至少对一个品牌对偏好较大(即p1,p2,p3至少有一个超过1/3)。
如果H0为真,则各面包品牌消费者人数E1=E2=E3=n*p1=50人,计数卡方统计量χ2:
3. 做出判断
当H0为真时,此问题的χ2近似符合卡方分布,对这个简单对分类,自由度为3-1=2,取α=0.05, 则χ2(α=0.05)=5.99,拒绝域为χ2>χ2(α=0.05)
由于χ2=6.52>5.99,因此拒绝原假设,即在显著性水平α=0.05下,我们有理由相信,消费者总体对三个品牌中至少一个存在较大对偏好
单向表卡方检验方法
单向表卡方检验需要满足对条件
2.样本量n足够大,要求每个类都要满足期望计数Ei大于等于5
双向(列联)表
有两个变量被分类,试验的结果可以汇总在一个双向表(two-way table)内。
举例
could Identify Product为能够识别品牌产品,试分析品牌意识都男女观众是否有现在差异
为了表示方便,表10.3的观察频数和概率分别为n11,n12,n13,n14,p11,p12,p13,p14,
其中pr1,pr2,pc1,pc2称为行和列的边际概率(marginal probability)
先计算各单元格的频次的期望,假设H0为真(即男女没有差别),则
E11=n*p11=n*pr1*pc1(样本总数*识别出品牌的观众的概率*男生占总人群的概率)
由于真实概率未知,用(R1/n)估计pr1,(C1/n)估计pc1,则
E12=R1*C2/n=70.27,E21=R2*C1/n=79.27,E22=R2*C2/n=84.73
在一个双向列联表中检验独立假设时,自由度为(r-1)*(c-1)=(2-1)X(2-1)=1,取α=0.05, 则χ2(α=0.05)=3.814,拒绝域为χ2>χ2(α=0.05)
由于χ2=46。14>χ2(α=0.05)=3.814,因此拒绝原假设,即男女在识别品牌上有差异。
两个变量的依赖关系在将观测值转化为比例后看得更清楚,在这个例子中,选择观众的性别作为基础变量,然后将第二各变量(这里是观众的品牌意识)的每个水平的响应值表示为基础变量分类汇总的百分比,如男性识别品牌的比例为95/145=65.5%。如果观众的性别和品牌意识是独立的,则表中每个单元格的百分比应该近似等于行百分比。此例中,男女百分比明显有差异:
双向表卡方检验方法
双向表卡方检验需要满足对条件
1.n各观测到的计数是从总体中舟曲的随机样本,我们可以将此视为一个具有rXc中可行结果的多项试验
2.样本量n足够大,要求每个单元格都要满足期望计数Eij大于等于5
使用卡方检验需要注意的地方
1.如果期望计数很小时,应该避免使用卡方概率分布作为卡方统计量的抽样分布的近似,这种近似会非常弱,真实的α水平将与制表值有很大的差异。作为经验法则,单元格的期望计数至少包含5个。
2.如果卡方值没有超过已经确定的卡方临界值,只能说不能拒绝原假设,而不能说接受原假设,否则可能会犯第二类错误,且犯这种错误的概率是未知的。
3.如果卡方值确实超过已经确定的卡方临界值,我们要谨慎,避免推断两种分类变量存在因果关系,只能说这两种变量在统计意义上是相互依赖的。