拉普拉斯或高斯噪声和差分隐私

差别隐私的概念是保证某人在数据库中的参与能透露多少信息。 这些界限用两个数字来描述:ε(ε)和δ(δ)。 我们主要对ε描述的乘法界感兴趣。 这个数字大约是分析师可能获得的关于个人的信息位数。

乘法界是exp(ε),因此ε,乘法界的自然对数,将是信息度量,尽管在技术上是 nats 而不是 比特 因为我们用的是天然原木,而不是2号原木。

拉普拉斯或高斯噪声和差分隐私

在之前的文章中,我们研究了一个保护二进制响应隐私的随机化方案。 这篇文章将简要介绍给连续或无界的数据添加噪音。 我喜欢保持这里的帖子相当短,但这个话题是相当技术性的。 简而言之,我将省略一些细节,给出更多直观的概述。

δ项被加到乘法界。 理想情况下,δ是0,也就是说,我们更喜欢(ε,0)-差分隐私,但有时我们不得不满足于(ε,δ)-差分隐私。 粗略地说,δ项代表了少数人可能会比其他人失去更多隐私的可能性,乘法界限并不适用于所有人。 如果δ很小,这数据库同步软件 种风险就很小。

拉普拉斯分布也称为双指数分布,因为它的分布函数看起来像指数分布函数,其副本反映了 y-轴;这两条指数曲线在原点汇合,形成一种马戏帐篷形状。 拉普拉斯随机变量的绝对值是指数随机变量。

为什么我们对这种特殊的分布感兴趣? 因为我们对乘法边界感兴趣,所以指数分布会使计算变得复杂也就不足为奇了,因为指数是乘法的。

拉普拉斯机制将拉普拉斯分布噪声添加到函数中。 ifδ f 是函数的灵敏度 f,这是揭示函数的一种方法,然后添加带有标度δ的拉普拉斯噪声 f/ε保留(ε0)-差异隐私。

技术上,δ fl1 敏感性。 我们需要这个细节,因为高斯噪声的结果包括 l2 敏感性。 这只是一个我们是否用 l1 (绝对值之和)范数或 l2 (平方和的平方根)范数。

高斯机制通过用更熟悉的正态(高斯)分布增加随机性来保护隐私。 这里,结果有点混乱。 让ε严格在0和1之间,选择δ > 0。 那么,高斯机制是(ε,δ)-差分隐私,前提是高斯噪声的尺度满足:

不足为奇的是 l2 norm出现在这种情况下,因为正态分布和 l2 规范是密切相关。 δ项出现也不足为奇;拉普拉斯分布非常适合乘法边界,但正态分布不适合。