论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

背景

文章:Membership Inference Attacks Against Machine Learning Models. IEEE Symposium on Security and Privacy 2017: 3-18
这篇文章关注机器学习模型的隐私泄露问题,提出了一种成员推理攻击:给出一条样本,可以推断该样本是否在模型的训练数据集中——即便对模型的参数、结构知之甚少,该攻击仍然有效。
出发点: 机器学习模型在其训练数据和初次遇见的数据上的表现往往不同,可据此推断某条数据是否在其训练数据集中

成员推理攻击—攻击方式

基本思想: 若已知目标模型的训练集,那么对于样本(x,y) ,设目标模型的输出为预测向量y ̂, 根据其是否在目标模型的训练集中,可以构建(y,y ̂,in) (y,y ̂,out), y ̂作为featureinout 作为label,可以训练二分类模型。即攻击模型是一个二分类模型,其以目标模型的输出y ̂作为输入,判断样本是否在目标模型的训练集中。
关键技术:shadow model
作用:构造与目标模型相似的训练集

                                        论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

                                                                    黑盒设置中的成员推理攻击

防御目标

目标一:攻击者的攻击分类器对目标分类器训练数据集成员/非成员的推断不准确,即保护训练数据集的隐私。

目标二:置信评分向量的utility-loss有界

本文贡献

提出了MemGuard,这是在黑盒设置下,第一个使用正式的utility-loss抵御成员推理攻击。
提出了一种新的算法来寻找满足唯一utility-loss约束的噪声向量。
推导出了把噪声向量加到置信评分向量的概率的解析解。
在三个真实的数据集上评估了MemGuard。结果表明,MemGuard是有效的,并优于现有的防御。

论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

MemGuard

情景1g(s)=0.5
机制显然为以概率1添加噪声向量0的最优随机噪声添加机制
情景2g(s)≠0.5
将噪声空间分为两组,添加第一组后通过g预测是成员的概率为0.5,添加第二组后通过g预测是成员的概率不是0.5。即
g(s+n)=0.5是一组;g(s+n)0.5是另一组
分为两个阶段求解
第一:求解代表性的变形尽可能小的噪声向量
第二:求解随机噪声添加机制的概率

第一阶段

论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

第二阶段

论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

One-time randomness

攻击者:重复查询同一样本n次,得到m????1s_1n-m????2s_2
利用     论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples  计算出p, s_1s_2的频率分别为m/n(n-m)/n,频率接近于1-ps_i就是真正的置信评分向量

one-time randomness

概述:对于同一样本返回同一噪声置信评分向量,即选择同一噪声向量
步骤:
计算查询样本的hash,将hash作为seed利用伪随机数生成器生成????[0,1]
????<????,添加r,否则不添加
证明:假设攻击者知道防御手段,能得到????p^′,但他不知道????p,也就无法判断

    返回的置信评分向量是否为真的

总结:

论文提出了一个很有意思的攻击解决方法,通过对目标模型得到的置信评分向量以一定的概率添加噪声得到一个随机噪声添加机制,并且让防御者模拟攻击者的攻击分类器形成防御分类器,进而提出优化问题并且求解。