[文献阅读]Robust parameter estimation with a small bias against heavy contamination

文章标题为《Robust parameter estimation with a small bias against
heavy contamination》（可以抗重污染数据的有小偏差的稳健参数估计），是日本统计数学研究所Hironori Fujisawa和 Shinto Eguchi于2008年发表在《Journal of Multivariate Analysis》的文章。

该文章主要介绍了一种新的有小偏差的稳健参数估计的方法，该估计是基于 $\gamma$ 交叉熵得出的，并且求得的估计具有较好的性质，在数据污染较为严重的情况下，估计值仍然较为准确。

本文只是介绍这篇文章的方法与思想，不阐述证明相关的内容。可能存在理解不准确的地方，欢迎指正。

稳健的参数估计方法中，有一类方法在进行参数估计时，需要考虑密度权值（density power weight），密度权值可以表示为： $f(x)^{\gamma}$ ，其中 $f(x)$ 为密度函数， $\gamma$ 为正常数。并且，当 $x$ 为异常值时， $f(x)$ 会很小。

稳健的参数估计

$f(x)$ 为潜在的概率密度函数（就是正常样本的概率密度函数，但是未知）；
$\delta (x)$ 为与异常值有关的密度函数；
$g(x)$ 为污染后的样本的密度函数；
且假设： $g(x) = (1-\epsilon)f(x) +\epsilon \delta(x)$ , $\epsilon$ 为样本被污染的比例。

$f_{\theta}(x)$ 为参数密度函数（就是假设 $g(x)$ 形式已知，含有未知参数 $\theta$ ）；
设 $\hat{\theta}$ 是根据独立同分布（都服从 $g$ 分布）的样本 $x_1,... ,x_n$ 得到的估计值;
那么：

如果样本中没有异常值，就有 $g(x) = f(x)$ ，我们进行一般的参数估计，目的是使得 $f_{\hat\theta}(x)$ 充分接近 $g$ ，也就是充分接近 $f(x)$ ；
如果样本中有异常值，我们进行稳健的参数估计，目的是使得，对于 $\epsilon >0$ ， $f_{\hat\theta}(x)$ 充分接近 $f(x)$ ；
有异常值时进行参数估计的问题在于， $\hat{\theta}$ 是根据服从 $g$ 分布的样本 $x_1,... ,x_n$ 得到的，但是我们并不估计 $g$ ，而是估计 $f$ .

用密度权值进行稳健参数估计的直观想法是：
由于当 $x^*$ 为异常值时， $f(x^*)$ 的值很小。那么 $f(x)^{\gamma}$ 就相当于在给密度函数加权，如果是异常值，权值 $f(x)^{\gamma}$ 很小；如果不是异常值，权值 $f(x)^{\gamma}$ 则很大。

方法假设

这篇paper一个重要的假设是：
[文献阅读]Robust parameter estimation with a small bias against heavy contamination
存在一个 $\gamma_0 >0$ ，使得 $\nu_f$ 充分小。

这个假设暗含了：异常值有关的分布 $\delta (x)$ 其实在正常值 $f(x)$ 的尾部。

例如，假设 $\gamma_0 = 1$ ,在异常值 $x^*$ 处 $\delta (x)$ 是狄里克雷函数，那么 $\nu_f = f(x^*)$ .

$\gamma$ 交叉熵与估计的提出

关于 $\gamma$ 交叉熵的定义为：
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

其经验估计为：
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

那么本篇文章提出的稳健的参数估计即为：
[文献阅读]Robust parameter estimation with a small bias against heavy contamination
我们所求的文件的估计 $\hat{\theta_\gamma}$ 可以理解为求解一个经验估计交叉熵的极小值，转化为一个优化问题。

下面将说明这样求得的 $\hat{\theta_\gamma}$ 具有较好的性质。

$\gamma$ 散度的三角关系

$\gamma$ 散度

$\gamma$ 散度的定义为：
[文献阅读]Robust parameter estimation with a small bias against heavy contamination
根据李雅普诺夫不等式，有

三角关系（毕达哥拉斯关系）

定理3.1 给出了 $\gamma$ 交叉熵与 $\gamma$ 散度的一些性质，这些性质在推导后面的三角关系、渐进性质等都会用到。
[文献阅读]Robust parameter estimation with a small bias against heavy contamination
定理3.2 给出了 $\gamma$ 散度的三角关系。

这个定理说明了三个密度函数之间基于散度的三角关系，也可以看作一个投影关系。

假设 $h$ 与 $f$ 有相似的性质，且 $h$ 满足假设（*），那么 $D_\gamma (g,h)$ 的最小值与 $D_\gamma (f,h)$ 的最小值是相同的。

进一步，如果将 $h$ 看作 $f_\theta (x)$ ，那么就有 $D_\gamma (g,f_\theta )$ 的最小值与 $D_\gamma (f,f_\theta )$ 的最小值是相同的，因此用这种方法可以得到较好的稳健的参数估计。

估计的偏差很小

设 $\theta^* =\arg \min \ \ d_\gamma (f, f_\theta)$ ， $\theta^*_\gamma =\arg \min \ \ d_\gamma (g, f_\theta)$ ，那么由于样本的异常值造成的变差可表示为 $\theta^*_\gamma - \theta^*$ .

定义参数空间
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

其中 $\nu _w$ 为一个充分小的数。我们假设 $\theta$ 属于这个参数空间，那么表明 $f$ 与 $f_\theta$ 在这个空间中有相同的性质，即异常值的分布 $\delta$ 也在 $f_\theta$ 的尾部。

我们把稳健参数估计的空间限制在 $\Omega_{\nu_w}$ . 那么稳健的参数估计就是求解 $d_\gamma (\bar{g}, f_\theta)$ 在参数空间内的局部极小解。

根据
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

可知，估计的偏差很小。

定理3.3 总结了这一结果。
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

迭代算法

求解稳健的参数估计，需要求解一个优化问题。但是该优化问题的解并没有显式表达，只能通过迭代算法求解。

这一迭代算法是基于密度函数的三角关系得到的。从指数分布族拓展到一般的分布。定理4.1 给出了迭代算法。

[文献阅读]Robust parameter estimation with a small bias against heavy contamination

渐进性质

渐进性质是基于M估计量得到的。
[文献阅读]Robust parameter estimation with a small bias against heavy contamination
paper中的定理5.1 表明，基于经验交叉熵得到的稳健估计可以自动忽略异常值，因为估计的渐近方差会随着 $\epsilon$ 成比例的加权。

$\gamma$ 交叉熵的扩展

前文所说的交叉熵有固定的形式，事实上这一交叉熵 $d(g, f)$ 可以扩展为一类：
[文献阅读]Robust parameter estimation with a small bias against heavy contamination

在一定条件下，上述针对 $d_\gamma$ 的结论对于此类交叉熵都成立。

回归

此稳健参数估计也可用在回归的参数估计中。

以上。

[文献阅读]Robust parameter estimation with a small bias against heavy contamination

稳健的参数估计

方法假设

γ\gammaγ交叉熵与估计的提出

γ\gammaγ散度的三角关系

γ\gammaγ散度

三角关系（毕达哥拉斯关系）

估计的偏差很小

迭代算法

渐进性质

γ\gammaγ交叉熵的扩展

回归

相关推荐

$\gamma$ 交叉熵与估计的提出

$\gamma$ 散度的三角关系

$\gamma$ 散度

$\gamma$ 交叉熵的扩展