查看原文
其他

论文详解丨基于错误学习难度实现联邦学习的高效差分隐私安全聚合

沈平章 隐私计算研习社 2024-01-09

1

背景

 联邦学习利用边缘计算从网络用户数据开发模型,但联邦学习中的隐私问题是一个重大挑战。人们提出了使用差分隐私技术来解决这个问题,但同时也带来了许多挑战。


许多差分隐私技术需要可信的第三方,否则需要增加大量噪声来生成安全的模型。多方安全计算中的安全聚合技术的最新进展消除了对第三方的需求,但计算成本昂贵,尤其是在规模上。


本文提出了一种新的联邦学习协议,该协议利用了一种基于错误学习技术的新颖的差分隐私、恶意安全聚合协议。本文的协议优于当前最先进的技术,并且实验结果表明它可以扩展到大量参与方,并且对于任何差分隐私联邦学习方案都具有准确性。


2

主要贡献

1. 一种新颖的恶意安全聚合协议,其性能优于以前的差分隐私梯度聚合方法。

2. 用于保护隐私联邦学习设置的新端到端协议(FLDP),即使在存在恶意客户端和恶意服务器的情况下,也能使用本文的安全聚合协议来提供差分隐私。

3. 支持可扩展性主张的分析和实验结果,表明本文的协议在MNIST和CIFAR-10的实际模型上实现了与差分隐私深度学习的中心模型方法几乎相同的准确性。

3

相关技术
3.1 安全聚合

安全聚合协议:允许一组客户端(其中一些可能被恶意对手控制)计算客户端私有向量的总和(例如联邦学习中的梯度),而无需泄露单个向量。

3.2 瑞丽差分隐私

如果一个机制满足瑞丽差分隐私,那么此机制也满足差分隐私。其中

3.3 LWE
LWE:容错学习。为了减少使用 MPC 求和的向量的维数,本文使用了一种技术,其安全性依赖于错误学习 (LWE) 问题的难度。这些计算问题通常以下列方式提出:设为素数大小的有限域,有时表示为,并固定一个秘密向量。一个 LWE 样本是一对,其中是随机均匀选择的,并且,其中表示通常的点积,是所谓的“误差”,从上合适的误差分布中选择。
3.3.1 搜索LWE问题(SLWE)

问题定义为:给出的Oracle,在最多进行m次Oracle访问的情况下求s。

也可以直接将m个Oracle的结果一并给出, 即均匀选择和采样,根据求s。
3.3.2 决策LWE问题(DLWE)
问题定义为: 给出m个来自以下两个分布中的任何一个的采样结果:分布上的均匀分布,求采样结果所服从的分布。
在密码学中,一般需要证明一个困难问题的安全性的时候,我们一般都会使用决策版本的LWE问题(Decisional LWE)。

4

算法设计:LWE-Based Secure Aggregation
4.1 掩码聚合算法
新颖的屏蔽协议,它使我们能够减少客户端通信:
1.每个客户端生成一个与其梯度大小相同的一次性密钥,屏蔽其梯度,并将加密的梯度发送到服务器。
2.客户端使用 MPC 将其掩码添加在一起,并将聚合掩码发送到服务器。
通过该协议,服务器可以通过添加掩码梯度并减去聚合掩码来恢复梯度的真实和。此外,聚合掩码没有揭示任何单独的梯度或其掩码。
我们首先假设所有客户端共享从中均匀随机选择的一组公共m个向量,并将这些向量排列为矩阵的行。然后每个客户端生成一个秘密向量 ,该向量的每个条目都从分布中提取,以及一个误差向量,该向量的每个条目也从相同的分布中提取,并计算该向量



然后,我们可以将对视为一组m个 LWE 样本,其中A的每一行构成样本的第一个条目,b的每个条目构成样本的第二个条目。LWE 决策问题的难度告诉我们,向量b与从中均匀随机选择条目的向量没有区别,因此b可以作为一次性密钥来加密向量
现在假设是客户端向量。另外,假设是客户端的所有之和。

根据一次性密钥的定义,每个客户端都可以将发送到服务器,而不会透露有关的任何信息。服务器可以通过简单的向量相加得到。根据每个的定义,我们进一步知道:,根据每个的定义和分配律,我们得到:,其中表示通常的矩阵向量乘法。为了获得,本文使用安全聚合协议,返回向量的和,同时不向规模小于t的任何参与方子集透露任何输入信息。因为使用Sagg,所以不会透露每个客户端的值。在客户端出现dropout的情况下,Sagg还会返回参与聚合的各方的子集,从而知道谁参与了Sagg。得到后,服务器可以计算得到以下值:

客户端不会共享其各自的误差向量值,因为这将使确保是一次性密钥的 LWE 假设无效。因此,我们通过返回一个有噪声的答案来实现计算的理想功能。幸运的是,中的每个条目都是至多k个离散高斯函数的总和。因此我们可以利用添加的噪声来满足(ε,δ)-DP。详细算法见下图协议3。

4.2 安全矢量加法算法
在4.1小节里我们介绍了基于LWE的掩码聚合算法,在本小节中我们将介绍如何安全求和向量从而得到。本文中用到秘密共享的技术,且具有同态加的性质。具体算法见下图协议4。
4.3 恶意安全向量聚合
基于packed secret sharing的安全性,协议4可以安全地抵御半诚实的对手。恶意对手可能会在协议的Round 2中广播错误的总和,最终结果将被其他客户端错误地计算。传统上,reconstruct函数没有能力捕获这种作弊行为;在很多情况下,重建过程中需要所有秘密份额都达到阈值,因此单个秘密份额的腐败就会改变结果.
现在,本文通过应用Benaloh可验证秘密方案的变体来扩展协议4,以防止恶意客户端的攻击。本文提出以下重建方法来验证客户的行为是否诚实。要求每个客户端至少拥有t + 1个秘密份额,让每个诚实的客户端获取两个份额子集,一个大小为t,另一个子集大小为t + 1。客户端对这两个子集执行传统的重建技术。如果两个重建返回的值相等,被客户端接受;否则,就会被丢弃。修改后的重建过程出现在下图算法5中。用修改后的重建过程的调用替换协议4中对重建的调用会得到恶意安全协议。
5

隐私分析
命题1为离散高斯总和生成的噪声提供了Rényi散度的界限,这直接暗示了Rényi差分隐私。命题1产生与传统差分隐私的隐私分析几乎相同的结果(假设连续高斯)。当 n 等于批量大小 b 并且等于(其中 C 是 L2 裁剪参数)时,命题 1 中的界限的第一项与我们之前的隐私分析中给出的界限相同。

随着噪声梯度的定点表示变得更加精确,界限的第二项变得非常小。EncodeGradient函数使用小数点后4位精度,这意味着的有效值为其“原始”值的10,000倍。每增加一位精度,这两个值都会再增加10倍。这具有将值减小到极其接近于零的效果。


本文通过命题1将离散的高斯噪声近似等价于连续的高斯噪声,从而达到差分隐私。


6

实验分析
6.1 掩码可扩展性

图1和图2展示了本文的具体性能结果。与Bonawitz等人的具体性能结果相比,我们看到客户端和服务器计算时间有了显著改进。对于所有测试的配置,客户端计算花费的时间不到半秒,并且由与向量大小的线性关系决定。
服务器计算时间与向量大小呈线性关系,与客户端数量呈二次关系。在没有dropout的情况下,服务器计算速度很快,所有测试的配置花费的时间不到5秒。在dropout场景中,服务器计算速度显著变慢,但仍然比最先进的技术快得多
服务器时间主要由用于重建的拉格朗日插值过程决定。无dropout情况没有拉格朗日插值,dropout模型使用一次拉格朗日插值,恶意协议进行两轮拉格朗日插值。图2显示恶意协议所需的时间大约是丢弃友好协议的两倍,这是因为拉格朗日插值的使用。通过更快的插值算法可以提高性能。

6.2 模型准确率

本文使用标准MNIST和CIFAR-10数据集评估FLDP的准确性和可扩展性。表3列出了这两个数据集以及它们训练的模型。
对于MNIST和CIFAR-10模型,本文的损失函数使用分类交叉熵,优化器使用学习率为0.01的随机梯度下降,动量为0.9,所有试验的裁剪参数C = 5。本文对表3中列出的每对批量大小和σ的每个数据集进行了一系列试验。所有精度结果都是使用给定模型配置的4次试验的每个时期的平均值。实验中所有ε值都是根据相应的Rényi差分隐私保证计算出来的,方法是选择α来最小化RDP ε参数,然后将该保证转换为的(ε,δ)-差分隐私。我们在图3中看到了针对不同ε值报告的选定精度结果。



本文参考: SecurityLabUJN

分享仅供学习参考,若有不当,请联系我们处理。


END

1.论文合集|2023 PETS会议 (CCF-C) 论文名单

2.安全多方计算和多重签名技术及其应用场景

3.论文详解丨一种面向电能量数据的联邦学习可靠性激励机制

4.学习同态加密:同态加密中英文经典教材盘点


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存