有关卡方检验(chi-square test )
1. 什么是卡方检验
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
在大数据运营场景中,通常用在某个变量(或特征)值是不是和因变量有显著关系。
通俗来讲:卡方检验就是检验两个变量之间有没有关系
举两个例子:
- 卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别;
- 不同城市级别的消费者对买SUV车有没有什么区别;不同城市级别的消费者对买SUV车有没有什么区别;
2. 卡方检验基本原理
- 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。
- 实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
注意: 卡方检验针对分类变量。
3. 卡方检验实例
问题1: 投硬币 不知道这个硬币是不是均衡的,我想用正面,反面的频次来判断,我投了50次,其中28个正面,22个反面。我怎么用卡方检验来证明这个硬币是均衡的还是不均衡的呢?
通过卡方检验来拿观察到的现象(投正面或反面的次数或者频数),来判断这个结果(硬币是不是均衡的)。
引入公式:
这个公式可以帮我们求出卡方检验的值,我们用
- 这个公式求得的值
- 自由度
- 置信度
其中,自由度我们可以求出来,置信度的话,我们按照我们自己意愿挑选,一般我们会挑90%或者95%。
我们拿到这3个信息,去查表,因为0.72小于查表得到的3.841,所以我们得出这个硬币是均衡的结论。
问题2: 电商中消费者的性别和购买生鲜(独立性检验)
我们要观察性别和在线上买不买生鲜食品有没有关系,现实生活中,女性通常去菜市场买菜的比较多,那么在线上是不是也这样。
我们得出观察到数据,并且形成表格后,我们需要计算理论的数据,在上面的例子我们发现,我们发现有66%的人不在线上买生鲜(599除以907),34%的人会在线上买。 那如果,男的有733个人,女的有174个人,根据这些比例,我们可以得出的理论值是什么呢?
根据理论和实际值,我们可以算出卡方值,自由度,并且结合我们定义的置信度,查表得到性别和线上买生鲜是显著相关的。
问题 3: 两组大白鼠在不同致癌剂(甲乙两组)作用下的发癌率如下表,问两组发癌率有无差别?
其中(52 19 39 3)这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)。
从该资料算出的两组发癌率分别为73.24%和92.86%,两者的差别可能是抽样误差所致,亦可能是两组发癌率(总体率)确有所不同。
这里可通过卡方检验来区别其差异有无统计学意义,检验的基本公式为:
式中A为实际数,以上四格表的四个数据就是实际数。
T为理论数,是根据检验假设推断出来的;
即假设这两组的发癌率本无不同,差别仅是由抽样误差所致。
这里可将两组合计发癌率作为理论上的发癌率,即91/113=80.3%,以此为依据便可推算出四格表中相应的四格的理论数。以上表资料为例检验如下。
检验步骤:
1.建立检验假设:
H0:π1=π2;H1:π1≠π2;α=0.05
2.计算理论数(TRC),计算公式为:
式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。
第1行1列: 71×91/113=57.18
第1行2列: 71×22/113=13.82
第2行1列: 42×91/113=33.82
第2行2列: 42×22/113=8.18
以推算结果,可与原四项实际数并列成下表:
因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=57.18),则其余三项理论数都可用同行或同列合计数相减,直接求出。
3.计算卡方值按公式代入
4.查卡方值表求P值
在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到,而本题卡方=6.48,即卡方>,P<0.05,差异有显著统计学意义,按水准,拒绝H0,可以认为两组发癌率有差别。
4. 总结
通过实例计算,读者对卡方的基本公式有如下理解:
- 若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零,而卡方永远为正值。
- 又因为每一对理论数和实际数都加入卡方值中,分组越多,即格子数越多,卡方值也会越大,因而每考虑卡方值大小的意义时同时要考虑到格子数。因此自由度大时,卡方的界值也相应增大。