[文献阅读]Robust parameter estimation with a small bias against heavy contamination

文章标题为《Robust parameter estimation with a small bias against
heavy contamination》(可以抗重污染数据的有小偏差的稳健参数估计),是日本统计数学研究所Hironori Fujisawa和 Shinto Eguchi于2008年发表在《Journal of Multivariate Analysis》的文章。

该文章主要介绍了一种新的有小偏差的稳健参数估计的方法,该估计是基于γ\gamma交叉熵得出的,并且求得的估计具有较好的性质,在数据污染较为严重的情况下,估计值仍然较为准确。

本文只是介绍这篇文章的方法与思想,不阐述证明相关的内容。可能存在理解不准确的地方,欢迎指正。

稳健的参数估计方法中,有一类方法在进行参数估计时,需要考虑密度权值(density power weight),密度权值可以表示为:f(x)γf(x)^{\gamma},其中f(x)f(x)为密度函数,γ\gamma为正常数。并且,当xx为异常值时,f(x)f(x)会很小。

稳健的参数估计

f(x)f(x) 为潜在的概率密度函数(就是正常样本的概率密度函数,但是未知);
δ(x)\delta (x) 为与异常值有关的密度函数;
g(x)g(x)为污染后的样本的密度函数;
且假设:g(x)=(1ϵ)f(x)+ϵδ(x)g(x) = (1-\epsilon)f(x) +\epsilon \delta(x), ϵ\epsilon为样本被污染的比例。

fθ(x)f_{\theta}(x)为参数密度函数(就是假设g(x)g(x)形式已知,含有未知参数θ\theta);
θ^\hat{\theta}是根据独立同分布(都服从gg分布)的样本x1,...,xnx_1,... ,x_n得到的估计值;
那么:

  • 如果样本中没有异常值,就有g(x)=f(x)g(x) = f(x),我们进行一般的参数估计,目的是使得fθ^(x)f_{\hat\theta}(x)充分接近gg,也就是充分接近f(x)f(x)
  • 如果样本中有异常值,我们进行稳健的参数估计,目的是使得,对于ϵ>0\epsilon >0fθ^(x)f_{\hat\theta}(x)充分接近f(x)f(x)
  • 有异常值时进行参数估计的问题在于,θ^\hat{\theta}是根据服从gg分布的样本x1,...,xnx_1,... ,x_n得到的,但是我们并不估计gg,而是估计ff.

用密度权值进行稳健参数估计的直观想法是:
由于当xx^*为异常值时,f(x)f(x^*)的值很小。那么f(x)γf(x)^{\gamma}就相当于在给密度函数加权,如果是异常值,权值f(x)γf(x)^{\gamma}很小;如果不是异常值,权值f(x)γf(x)^{\gamma}则很大。

方法假设

这篇paper一个重要的假设是:
[文献阅读]Robust parameter estimation with a small bias against heavy contamination
存在一个γ0>0\gamma_0 >0,使得νf\nu_f充分小。

这个假设暗含了:异常值有关的分布δ(x)\delta (x)其实在正常值f(x)f(x)的尾部。

例如,假设γ0=1\gamma_0 = 1,在异常值xx^*δ(x)\delta (x)是狄里克雷函数,那么νf=f(x)\nu_f = f(x^*).

γ\gamma交叉熵与估计的提出

关于γ\gamma交叉熵的定义为:
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

其经验估计为:
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

那么本篇文章提出的稳健的参数估计即为:
[文献阅读]Robust parameter estimation with a small bias against heavy contamination
我们所求的文件的估计θγ^\hat{\theta_\gamma}可以理解为求解一个经验估计交叉熵的极小值,转化为一个优化问题。

下面将说明这样求得的θγ^\hat{\theta_\gamma}具有较好的性质。

γ\gamma散度的三角关系

γ\gamma散度

γ\gamma散度的定义为:
[文献阅读]Robust parameter estimation with a small bias against heavy contamination
根据李雅普诺夫不等式,有
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

三角关系(毕达哥拉斯关系)

定理3.1 给出了γ\gamma交叉熵与γ\gamma散度的一些性质,这些性质在推导后面的三角关系、渐进性质等都会用到。
[文献阅读]Robust parameter estimation with a small bias against heavy contamination
定理3.2 给出了γ\gamma散度的三角关系。
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

这个定理说明了三个密度函数之间基于散度的三角关系,也可以看作一个投影关系。

假设hhff有相似的性质,且hh满足假设(*),那么Dγ(g,h)D_\gamma (g,h)的最小值与Dγ(f,h)D_\gamma (f,h)的最小值是相同的。

进一步,如果将hh看作fθ(x)f_\theta (x),那么就有Dγ(g,fθ)D_\gamma (g,f_\theta )的最小值与Dγ(f,fθ)D_\gamma (f,f_\theta )的最小值是相同的,因此用这种方法可以得到较好的稳健的参数估计。

估计的偏差很小

θ=argmin  dγ(f,fθ)\theta^* =\arg \min \ \ d_\gamma (f, f_\theta)θγ=argmin  dγ(g,fθ)\theta^*_\gamma =\arg \min \ \ d_\gamma (g, f_\theta),那么由于样本的异常值造成的变差可表示为 θγθ\theta^*_\gamma - \theta^*.

定义参数空间
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

其中νw\nu _w为一个充分小的数。我们假设θ\theta属于这个参数空间,那么表明fffθf_\theta在这个空间中有相同的性质,即异常值的分布δ\delta 也在fθf_\theta的尾部。

我们把稳健参数估计的空间限制在Ωνw\Omega_{\nu_w}. 那么稳健的参数估计就是求解dγ(gˉ,fθ)d_\gamma (\bar{g}, f_\theta)在参数空间内的局部极小解。

根据
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

可知,估计的偏差很小。

定理3.3 总结了这一结果。
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

迭代算法

求解稳健的参数估计,需要求解一个优化问题。但是该优化问题的解并没有显式表达,只能通过迭代算法求解。

这一迭代算法是基于密度函数的三角关系得到的。从指数分布族拓展到一般的分布。定理4.1 给出了迭代算法。

[文献阅读]Robust parameter estimation with a small bias against heavy contamination

渐进性质

渐进性质是基于M估计量得到的。
[文献阅读]Robust parameter estimation with a small bias against heavy contamination
paper中的定理5.1 表明,基于经验交叉熵得到的稳健估计可以自动忽略异常值,因为估计的渐近方差会随着ϵ\epsilon 成比例的加权。

γ\gamma交叉熵的扩展

前文所说的交叉熵有固定的形式,事实上这一交叉熵d(g,f)d(g, f) 可以扩展为一类:
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

在一定条件下,上述针对dγd_\gamma的结论对于此类交叉熵都成立。

回归

此稳健参数估计也可用在回归的参数估计中。

以上。