【指数编制系列四】异常值和缺失值处理

在指数编制的过程中经常会遇到原始数据出现数据异常或者数据缺失情况,数据质量差往往是指数表达性差的一个主要原因,在编制指数的过程中不可避免的会遇到异常数据和数据缺失的情况。所以在固有原始数据的情况下,采用适当的方法处理这些异常值和缺失值,从而消除这些异常值和缺失值对指数结果的影响,使得指数结果更加稳定的接近市场真实状况。

一. 异常值处理方法介绍

异常值是指样本中出现的明显偏离大多数观测值的个别值。如果样本中出现异常值,会对一些常用的统计方法产生较大影响。例如,一个偏离较大的数据,会使样本均值产生明显的偏差。样本中异常值的存在,还能影响最小二乘法的结果。因而,异常值问题的研究愈来愈引起统计学者们的重视。
基于统计的方法是最早的异常点检测方法,其思想是给定数据集一个假设概率模型,并根据不一致性检验来确定数据异常情况。

1. 样本中位数法

若原始数据幂变换后经检验为正态或近似正态, 则可用正态总体假设下的异常值检验方法来剔除异常值。正态分布情形下异常值的检验方法, 采用基于总体参数的稳健估计量的检验方法:样本中位数法、样本分位数法。
x1,x2,,xnx_1,x_2,…,x_n为取自N(μ,σ2σ^2)的样本, X(1)≤X(2)≤⋯≤X(n) 为其顺序统计量, med{xix_i}为样本中位数。构造异常值检验统计量(包括上侧、下侧、双侧3种情形), 当怀疑X(n) (或X(1))异常时, 计算上侧(或下侧)异常值检验统计量;当无法确定异常值出现在哪一侧时, 计算双侧异常值检验统计量;当由样本计算出的相应统计量的值大于临界值时, 则在相应的显著性水平下, 判定该极端值为异常值。
样本中位数法,上侧异常值检验统计量为:
Tn=(X(n)med(xi))/medximed(xi)T_n=(X(n)-med({x_i}))/med|x_i-med({x_i})|
下侧异常值检验统计量为:
T1=(med(xi)X(1))/medximed(xi)T_1=(med({x_i })-X(1))/med|x_i-med({x_i})|
双侧异常值检验统计量为:
DTn=max1inX(i)med(xi)/medximed(xi)D_{T_n}=max_{1≤i≤n}⁡|X(i)-med(x_i)|/med|x_i-med(x_i)|

2. 样本分位数法
σ2σ^2已知时, 采用0.3 样本分位数法。
上侧检验统计量为:
Tn=(X(n)1/2(X(n1)+X(n2)))/σT_n=(X(n)-1/2 (X(n_1 )+X(n_2 )))/σ
下侧检验统计量为:
T1=(1/2(X(n1)+X(n2))X(n))/σT_1=(1/2 (X(n_1 )+X(n_2 ))-X(n))/σ
双侧异常值检验统计量为:
MRT=max1inX(i)1/2(X(n1)+X(n2))/medximed(xi)MRT=max_{1≤i≤n}⁡|X(i)-1/2 (X(n_1 )+X(n_2 ))|/med|x_i-med(x_i)|
式中:
【指数编制系列四】异常值和缺失值处理
σ2σ^2未知时, 采用1⁄4样本分位数法。
上侧检验统计量为:
Tn=(X(n)1/2(X(n1)+X(n2)))/(X(n4)X(n3))T_n=(X(n)-1/2 (X(n_1 )+X(n_2 )))/(X(n_4 )-X(n_3 ) )
下侧检验统计量为:
T1=(1/2(X(n1)+X(n2))X(n))/(X(n4)X(n3))T_1=(1/2 (X(n_1 )+X(n_2 ))-X(n))/(X(n_4 )-X(n_3 ) )
双侧异常值检验统计量为:
MRS=max1inX(i)1/2(X(n1)+X(n2))/(X(n4)X(n3))MRS=max_{1≤i≤n}⁡|X(i)-1/2 (X(n_1 )+X(n_2 ))|/(X(n_4 )-X(n_3 ) )
式中:
【指数编制系列四】异常值和缺失值处理
利用样本中位数或分位数的优化组合来估计总体参数, 虽未能充分利用样本信息, 但在正态样本的异常值检验中却有较好的稳健性和较高的估计效率。较之前面几种方法, 具有以下优点:计算简便, 有抵抗异常值污染能力, 而且可接连使用检验多个异常值。因此, 在许多情况下, 具有其他方法所不可比拟的优越性。

3. 五数概括法
所谓“五数”是指中数M , 上、下四分位数(QU、QL)和上、下极值(QU+1.5H、QL-1.5H)。要识别数据中的异常值, 就要有对于异常值不敏感的展布度, 而且仅强调数据中心部分的行为而不强调极端值, 所以选择四分展布(记为H =QU -QL), 而不选极差与标准差.通常将在区间(QL -1.5H , QU +1.5H)之外的数据看做异常值.这种方法简单易操作, 对大样本检验功效较高, 但对小样本则略显粗糙.在实际问题中, 只能对这些数据分隔出来加以特别注意, 根据实际情况仔细检查它们是否为异常值。这个方法就是我们常用的箱图的方法。

4. 拉依达准则(3σ准则)
在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴
3σ原则为
数值分布在(μ-σ,μ+σ)中的概率为0.6826
数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)]区间
内,超出这个范围的可能性仅占不到0.3%.
3σ准则是建立在正态分布的等精度重复测量基础上而造成奇异数据的干扰或噪声难以满足正态分布.如果一组测量数据中某个测量值的残余误差的绝对值 νi>3σ,则该测量值为坏值,应剔除.通常把等于 ±3σ的误差作为极限误差,对于正态分布的随机误差,落在 ±3σ以外的概率只有 0.27%,它在有限次测量中发生的可能性很小,故存在3σ准则.3σ准则是最常用也是最简单的粗大误差判别准则,它一般应用于测量次数充分多( n ≥30)或当 n>10做粗略判别时的情况.

这种方法在指数编制过程中是比较常用的一种方法,同时也是比较有效的一种方法。

5. 格拉布斯(Grubbs)准则
格拉布斯准则适用于小样本情况。下面简述其原理和计算过程。
设重复测量的次数为n,重复测量的测值为xii12,,nx_i(i=1、2,…,n),检验xix_i是否为异常值的格拉布斯准则如下:
(1)xix_i按升序排列成顺序统计量,即:
x1x2xnx_1≤x_2≤⋯≤x_n
(2)计算格拉布斯统计量,包括下侧格拉布斯数g1g(1)以及上侧格拉布斯数gng(n)
g(1)=(xx1)/Sg(1)=(\overline x -x_1)/S
g(n)=(xnx)/Sg(n)=(x_n-\overline x )/S
式中:x\overline x,S 分别为n 次重复测量的监测数据算术平均值和标准差。
(3)显著性水平α(一般取0.05或0.01),由α和n(n 为样本数)查格拉布斯准则数表,得格拉布斯准则数T(n,α);
(4)判断若g(1)≥T(n,α),则X1为异常值,予以剔除;若g(n)≥T(n,α),则Xn为异常值,予以剔除;
(5)剔除异常值重复上述步骤,直到不存在异常值为止。

6. 肖维勒(Chauvenet)准则
肖维勒准则以正态分布为前提。假设多次重复测量得n 个监测数据,若数据残差
VixixZcS│V_i│=│x_i-\overline x│≥Z_c S
则为异常值剔除该数据,式中ZcZ_c为肖维勒准则数,S 为标准差,x\overline x为算术平均值,ZcZ_c与n 的关系查看肖维勒准则数表。

7. 狄克逊(Dixon)准则
设有一组多次重复测量的监测数据样本x1,x2,,xnx_1,x_2,…,x_n,按大小顺序排列为
x1x2xnx_1≤x_2≤⋯≤x_n
构建不同数据范围的极差比γ,如下所示。
【指数编制系列四】异常值和缺失值处理
选定显著性水平α,求得临界值D(α,n),如表狄克逊准则数所示。
γijγij,γijD(α,n)γ_{ij}>γ_{ij}^,,γ_{ij}>D(α,n)则判断x_1为异常值,予以剔除;
γij,γijγij,D(α,n)γ_{ij}^,>γ_{ij},γ_{ij}^,>D(α,n)则判断x_n为异常值,予以剔除。

二. 缺失值处理方法

缺失值的处理总结起来就是两种,一种就是删除、另一种是填补。删除法就不多做介绍了,需要注意的是在使用删除法的时候一定要从全局考虑,在样本数据足够的情况下可以对某些代表性不强且确实严重的数据进行删除,否则不是很建议使用删除的方法。

下面介绍几种常用的数据填补的方法。这类方法是用一定的值去填充空值,从而使信息表完备化。通常基于统计学原理,根据决策表中其余对象取值的分布情况来对一个空值进行填充,譬如用其余属性的平均值来进行补充等。
1)均值填充
均值填充顾名思义就是用样本均值进行填充,当然处理的方法也有很多不同。如全局均值,或者是最近几期的移动平均值,又或者是区域平均值。这个需要根据不同的情况而定。举个例子:假如我们缺失的是西北某省份的人口密度数据,那么可以用西北其他省份人口密度的平均值进行填充。如果是价格指数中某种产品当日价格缺失,经过考证是因为没有成交而缺失价格数据,那么完全可以用最近一个成交日的价格填充。如果有很多个采集点有价格,其中一个采集点没有价格,那可以用其他采集点的均价填充。等等。总之需要大家根据实际情况选择最贴近现实的方法进行填补。
2)趋势填补
如果我们缺失的是一个时间序列中的部分数据,且该时间序列有一定的趋势,那么缺失部分可以用趋势预测值进行填充。
3)回归填补
基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关或预测变量高度相关时会导致有偏差的估计。
4)极大似然估计(Max Likelihood ,ML)
在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。这种方法也被称为忽略缺失值的极大似然估计,对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization,EM)。该方法比删除个案和单值插补更有吸引力,它一个重要前提:适用于大样本。有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。

All things are difficult before they are easy.