1.6模型的比较和检验
在选择合适的评估方法和相应的性能度量时,计算出性能度量后直接进行比较,会存在以下问题:
- 模型评估得到的是测试集上的性能,并非严格意义上的泛化性能,两者并不完全相同
- 测试集上的性能与样本选取关系很大,不同的划分,测试结果会不同,比较缺乏稳定性
- 很多模型本身有随机性,即使参数和数据集相同,其运行结果也可能存在差异
上述问题按照统计学的知识描述为:已知两个模型 f1和f2 ,两者的泛化性能在测试集上的表现不同, f1好于f2 ,请检验在统计意义上 f1 是否好于 f2 ?这个把握有多大?
用掷硬币问题描述上述问题:
统计学家Fisher先生和一位女士玩掷硬币猜正反面的游戏。女士号称每次都能掷出正面,Fisher先生根据自己的知识认为不可能。然而女士拿出一枚准备好的硬币开始投掷后,果然连续n次的结果都是正面。Fisher先生觉得有两种可能,第一,这位女士运气非常好,能连续掷出正面;第二,硬币被做过手脚,无论谁掷都有很大的可能得到正面。到底是哪种原因呢?
在假设硬币没问题的情况下,投掷结果符合p=0.5的二项式分布:
第1次投掷,连续1次出现正面的概率为b(1;1,0.5)=0.5
第2次投掷,连续2次出现正面的概率为b(2;2,0.5)=0.25
第3次投掷,连续3次出现正面的概率为b(3;3,0.5)=0.125
第4次投掷,连续4次出现正面的概率为b(4;4,0.5)=0.0625
第5次投掷,连续5次出现正面的概率为b(5;5,0.5)=0.03125
第10次投掷,连续10次出现正面的概率为b(10;10,0.5)=0.000977
如果一个事件发生的概率为5%,我们通常认为它是小概率事件
5%就是假设检验的P值,实际工作中看业务需求,有时候可能会取1%,甚至更小的数值
统计假设检验(Hypothesis Test):事先对总体的参数或者分布做一个假设,然后基于已有
的样本数据去判断这个假设是否合理。即样本和总体假设之间的不同是纯属机会变异(因为
随机性误差导致的不同),还是两者确实不同。
常用的假设检验方法:
- t-检验法
- X2检验法(卡方检验)
- F-检验法
- ……
基本思想:
- 从样本推断整体
- 通过反正法推断假设是否成立
- 小概率事件在一次试验中基本不会发生
- 不轻易拒绝原假设
- 通过显著性水平定义小概率事件不可能发生的概率
- 全称命题只能被否定而不能被证明
假设检验步骤:
1.建立假设
根据具体的问题,建立假设:
原假设(Null Hypothesis):搜集证据希望推翻的假设,记作(假设硬币没有问题)
备择假设(Alternative Hypothesis):搜集证据予以支持的假设,记作(假设硬币有问题)
假设的形式:
- 双尾检验:不等于、有差异
- 左侧单尾检验:降低、减少
- 右侧单尾检验:提高,增加
只有小概率事件发生了,才拒接原假设,检验过程保护原假设
2.确定检验水准
检验水准(Size of a Test):又称显著性水平(Significance Level),记作α,是指原假设正确,但是最终被拒绝的概率。
在做检验的过程中,会犯两种错误:
- 原假设为真,被拒绝,称作第一类错误,其概率记作α,即为显著性水平,取值通常为0.05、0.025、0.01等
- 原假设为假,被接受,称作第二类惜误,其概率记作β,即为检验功效(power of a test)
显著水平α=0.05的意思是:在原假设正确的情况下进行100次抽样,有5次错误的拒绝了原假设。
3.构造统计量
构造统计量:根据资料类型、研究设计方案和统计推断的目的,选用适当检验方法和计算相应的统计量
常见检验方法:
- t检验:小样本(<30),总体标准差σ未知的正态分布
- F检验:即方差分析,检验两个正态随机变量的总体方差是否相等的一种假设检验方法
- Z检验:大样本(>=30)平均值差异性检测,又称u检验
- X2检验:即卡方检验,用于非参数检验,主要是比较两个及两个以上样本率以及两个分类变量的关联性分析
4.计算p值
关于p值:
- 用来判定假设检验结果的参数,和显著性水平α相比
- 在原假设为真的前提下出现观察样本以及更极端情况的概率
- 如果P值很小,说明原假设出现的概率很小,应该拒绝,P值越小,拒绝原假设的理由越充足
计算p值:假设原假设为真,可由样本数据计算出统计量,根据统计量的具体分布求出P值
5.得到结论
如果P值小于等于显著水平α,表明x小概率事件发生,拒绝原假设
统计量的值如果落在拒绝域内或者临界值,则拒绝原假设,落在接受域则不能拒绝原假设
例1:二项式检验
例2:T检验
假设检验在模型比较中的应用
以一元线性回归为例,可以使用假设检验作如下比较和推断:
- 回归系数的显著性检验:
- 检验自变量对因变量Y的影响程度是否显著
- 假设误差 ε 满足均值为0的正态分布,原假设:$H0:β1=0 H1:β1≠0$
- 使用T检验,如果原假设成立,则x和y并无线性关系
- 回归方程的显著性检验:
- 根据平方和分解式从回归效果检验回归方程的显著性
- 原假设:$H0:β1=0 H1:β1≠0$
- 使用F检验,如果原假设成立,则说明回归方程不显著,该方程并无实质意义
- 相关系数的显著性检验
- 检验两变量之间是否真正相关,或两个相关系数之间的差异是否显著
- 原假设:$H0:P=0 H1:P≠0$