[文献阅读]Robust parameter estimation with a small bias against heavy contamination
文章标题为《Robust parameter estimation with a small bias against
heavy contamination》(可以抗重污染数据的有小偏差的稳健参数估计),是日本统计数学研究所Hironori Fujisawa和 Shinto Eguchi于2008年发表在《Journal of Multivariate Analysis》的文章。
该文章主要介绍了一种新的有小偏差的稳健参数估计的方法,该估计是基于交叉熵得出的,并且求得的估计具有较好的性质,在数据污染较为严重的情况下,估计值仍然较为准确。
本文只是介绍这篇文章的方法与思想,不阐述证明相关的内容。可能存在理解不准确的地方,欢迎指正。
稳健的参数估计方法中,有一类方法在进行参数估计时,需要考虑密度权值(density power weight),密度权值可以表示为:,其中为密度函数,为正常数。并且,当为异常值时,会很小。
稳健的参数估计
为潜在的概率密度函数(就是正常样本的概率密度函数,但是未知);
为与异常值有关的密度函数;
为污染后的样本的密度函数;
且假设:, 为样本被污染的比例。
为参数密度函数(就是假设形式已知,含有未知参数);
设是根据独立同分布(都服从分布)的样本得到的估计值;
那么:
- 如果样本中没有异常值,就有,我们进行一般的参数估计,目的是使得充分接近,也就是充分接近;
- 如果样本中有异常值,我们进行稳健的参数估计,目的是使得,对于,充分接近;
- 有异常值时进行参数估计的问题在于,是根据服从分布的样本得到的,但是我们并不估计,而是估计.
用密度权值进行稳健参数估计的直观想法是:
由于当为异常值时,的值很小。那么就相当于在给密度函数加权,如果是异常值,权值很小;如果不是异常值,权值则很大。
方法假设
这篇paper一个重要的假设是:
存在一个,使得充分小。
这个假设暗含了:异常值有关的分布其实在正常值的尾部。
例如,假设,在异常值处是狄里克雷函数,那么.
交叉熵与估计的提出
关于交叉熵的定义为:
其经验估计为:
那么本篇文章提出的稳健的参数估计即为:
我们所求的文件的估计可以理解为求解一个经验估计交叉熵的极小值,转化为一个优化问题。
下面将说明这样求得的具有较好的性质。
散度的三角关系
散度
散度的定义为:
根据李雅普诺夫不等式,有
三角关系(毕达哥拉斯关系)
定理3.1 给出了交叉熵与散度的一些性质,这些性质在推导后面的三角关系、渐进性质等都会用到。
定理3.2 给出了散度的三角关系。
这个定理说明了三个密度函数之间基于散度的三角关系,也可以看作一个投影关系。
假设与有相似的性质,且满足假设(*),那么的最小值与的最小值是相同的。
进一步,如果将看作,那么就有的最小值与的最小值是相同的,因此用这种方法可以得到较好的稳健的参数估计。
估计的偏差很小
设,,那么由于样本的异常值造成的变差可表示为 .
定义参数空间
其中为一个充分小的数。我们假设属于这个参数空间,那么表明与在这个空间中有相同的性质,即异常值的分布 也在的尾部。
我们把稳健参数估计的空间限制在. 那么稳健的参数估计就是求解在参数空间内的局部极小解。
根据
可知,估计的偏差很小。
定理3.3 总结了这一结果。
迭代算法
求解稳健的参数估计,需要求解一个优化问题。但是该优化问题的解并没有显式表达,只能通过迭代算法求解。
这一迭代算法是基于密度函数的三角关系得到的。从指数分布族拓展到一般的分布。定理4.1 给出了迭代算法。
渐进性质
渐进性质是基于M估计量得到的。
paper中的定理5.1 表明,基于经验交叉熵得到的稳健估计可以自动忽略异常值,因为估计的渐近方差会随着 成比例的加权。
交叉熵的扩展
前文所说的交叉熵有固定的形式,事实上这一交叉熵 可以扩展为一类:
在一定条件下,上述针对的结论对于此类交叉熵都成立。
回归
此稳健参数估计也可用在回归的参数估计中。
以上。