本篇文章3022字,读完约8分钟

雷锋。(公开号码:雷锋。在iclr 2017中有三篇最佳论文,其中一篇是关于如何在机器学习训练中有效地保护私有数据,被称为“从私有训练数据进行深度学习的半监督知识转移”。本文给出了一个通用的解决方案,称为“教师集体/个人的私有集合”。馅饼听起来像“法国肉酱”。这篇论文的第一作者是尼古拉斯·帕佩诺特。在最近的iclr 2017大会上,papernot也做了口头报告。下面是雷锋同志编辑的papernot的现场演讲视频,有文字版。

ICLR

我主要讲的是在机器学习中如何保护数据的隐私。本文作者是martín abadi、úlfar erlingsson、kunal talwar和ian goodfellow。

为了解决这个问题,我们提出了一个通用的方法,可以为训练数据提供强有力的隐私保护:教师群体的私有聚合。

一些机器学习应用程序的培训涉及敏感数据。下面是一个训练通用人脸识别模型的例子。2015年,一组研究人员发现,模型训练中使用的人脸数据可以通过机器学习模型的预测结果进行重构。2016年,另一组研究人员发现,一个特定的训练点是否包含在模型训练数据中也可以从模型的预测结果中推断出来,他们将这种攻击称为“成员推断攻击”。

ICLR

几种攻击类型和我们的威胁模型下面有两种攻击类型。

模型查询(模型查询)

攻击者通过查询观察模型。对于攻击者来说,模型是一个黑箱,攻击者可以选择输入值来观察模型的预测结果。

模型检验(模型检验)

当我们设计防御时,我们将瞄准最强的攻击战术。有许多证据表明机器学习模型能够记住一些训练数据,其中一个证据来自本文:“理解深度学习需要重新思考概括”。因此,我们也想通过模型检查来防范白盒攻击。

在我们的工作中,威胁模型有以下假设:

攻击者可以进行潜在的无限制查询

攻击者可以访问该模型内部组件

在上述假设下,我们设计了一个保护数据隐私的通用方法。“普适性”是指“独立于学习算法或学习框架”,这是与该领域以往工作的最大区别。我们不仅提供正式的差别隐私保证,还提供一些直观的隐私保证。关于这一点,我稍后会作出更多解释。

我们的方法:pate我们给出的解决方案是“教师集体/pate的私人集合”,听起来像食物“法国肉酱”。

教师模型(教师模型)

首先,我们将敏感数据分成N个互斥的数据集,然后从这些数据集独立训练不同的模型,得到N个“教师模型”。当我们部署训练好的教师模型时,我们记录每个教师模型的预测结果,选择投票数最高的一个,并汇总预测结果。

如果大多数“教师模型”与某个预测结果一致,这意味着它不依赖于特定的分散数据集,因此隐私成本非常小。然而,如果有两种预测结果具有相似的票数,这种不一致可能会泄露私人信息。

因此,我们在“计票”和“取最大值”之间增加了一个额外的步骤:引入拉普拉斯噪声来干扰投票统计,从而保护隐私。

学生模型(学生模型)

你可以把“聚合教师模型”想象成一个不同的隐私api。当您提交输入值时,它会给您一个隐私标签。然而,如果我们能够训练一个机器学习模型,将其部署到用户设备上,并直接运行该模型来获得预测结果,那就更好了。因此,我们培训了一个额外的模型:“学生模型”。学生模型可以获得未标记的公共数据池。为了培养“学生模型”,我们需要“集合教师模型”来标记公共数据,并以保护隐私的方式传递知识。我们在设备上使用的是经过训练的“学生模型”。

ICLR

为什么要培养一个额外的“学生模型”?

如果你仔细观察,你会发现“集合教师模型”实际上摧毁了我们的威胁模型。每次查询“聚合教师模型”,都会增加隐私成本,因为它给出的输出结果或多或少会透露一些隐私信息。然而,当“学生模型”训练有素时,只能对“聚合教师模型”进行固定数量的查询,因此隐私成本将是固定的。

此外,我们应该防止攻击者探索模型的底层函数库。“教师模型”由私人数据训练,“学生模型”由带有隐私保护标签的公共数据训练。因此,在最坏的情况下,攻击者只能通过检查“学生模型”的底层函数库来获得具有隐私保护的注释信息,而且攻击者不能获得更多的隐私信息。

差异隐私分析对于相似数据集(d,d),随机算法M满足(ε,δ)差异隐私,因此两个查询数据库(d,d)的查询结果概率相近。书面公式是:

也就是说,对于任何查询结果集s,当参数ε接近0时,私密性程度高。因此,ε值决定了噪声干扰和隐私的程度。此外,我们还有一个代表失败率的参数δ,它简化了差异隐私分析。

我们应用了来自去年论文(abadi等人,2016年)的矩会计技术,可以为“教师模型”设定一个强有力的法定人数,从而带来较小的隐私成本。此外,差异隐私界限是数据相关的。

在展示实验结果之前,我想展示一下pate的一个生成变体:pate-g,你可以把它看作是pate的一个更华丽的版本。Pate-g最初的设计很简单:我们希望生成“学生模型”训练中使用的标签数量,数量越小,隐私成本越小。

生成对抗网络的总体结构分为生成器和鉴别器。我们将原来的二进制分类器(只区分数据是由实数还是由实数生成的)扩展为多类分类器,用于区分标记的实数样本、未标记的实数样本和生成的样本。

实验结果实验装置

我们使用四个数据库:mnist,svhn,uci成人和uci糖尿病。在训练“教师模型”时,我们对两个图像数据库mnist和svhn使用卷积结构。对于两个uci数据库,我们使用随机森林。在训练“学生模型”时,我们对mnist和svhn使用pate-g;对于两个uci数据库,我们使用公共pate架构。顺便说一下,我们所有的实验设置都已经在张量流模块上了。

“聚合教师模型”的准确性

这幅图描述了“集合教师模型”的准确性。因此,在培训“学生模型”之前,我们考虑了每个标签的隐私。横轴是每个标签查询的ε值,纵轴是预测结果的平均精度。

紫色线代表一个“集合教师模型”,有10个“教师模型”(n=10)。当我们逐渐降低ε的值时,这意味着我们引入了更多的随机噪声并加强了隐私保护,那么这种“聚合教师模型”的准确性也迅速下降。但是,图中的绿线和红线是“集合教师模型”(n=100,n=250),分别包含100和250个“教师模型”,因此我们仍然可以在较低的ε值下保持较高的精度。

ICLR

学生模型准确性与隐私性的平衡

横轴是“学生模型”的ε值,它代表了我们方法的所有隐私成本。纵轴是隐私保护的“学生模型”的错误率。

在紫色(mnist)和蓝色(svhn)部分,我们大大降低了ε值(低于600,000到200,000),这意味着隐私保护大大加强,从而保持甚至提高了准确性,因为错误率保持在较低水平。对于绿色部分,我们将错误率降低到最先进的水平,并支付适当的成人隐私成本。

最后,我们发现了一些关于uci糖尿病数据库的非常有趣的事情。学生准确性模型的准确性高于非私人基线模型。

最后,我想强调三点。第一点是,这种方法是通用的,这意味着你可以把它应用于各种分类器(包括神经网络);此外,即使您不太了解隐私保护,也可以通过pate框架保护机器学习中的训练数据。第二,没有给出不同的隐私界限,这对于实现准确性和隐私之间的良好平衡具有重要意义。第三,我们注意到隐私和普遍性不一定是矛盾的。

ICLR

那是我的报告。谢谢你。

更多雷锋文章:

张,,《iclr:理解深层学习》一书的最佳作者,我们为什么需要重新思考概括?| iclr 2017

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

来源:搜狐微门户

标题:ICLR

地址:http://www.shwmhw.com/shxw/60378.html