查看原文
其他

论文分享|联邦学习系统攻击与防御技术研究综述

论文名称:联邦学习系统攻击与防御技术研究综述

论文来源:计算机学报

论文作者高 莹,  陈晓峰,  张一余,  王玮, 邓煌昊, 段培, 陈培炫 

论文链接:http://cjc.ict.ac.cn/online/onlinepaper/gy-202396140306.pdf


1

综述

联邦学习作为一种使用分布式训练数据集构建机器学习模型的新兴技术,可有效解决不同数据用户之间因联合建模而导致的本地数据隐私泄露问题,从而被广泛应用于多个领域并得到迅速发展。

然而,现有的联邦学习系统已被证实在数据收集阶段、训练阶段和推理阶段都存在潜在威胁,危及数据的隐私性和系统的鲁棒性。本文从安全威胁和隐私威胁两类潜威胁入手,围绕机密性、完整性和可用性(CIA 三元组)给出了联邦学习场景中安全属性的详细定义,并对联邦学习中各攻击方式和防御手段进行了系统全面综述。

首先,本文对横向、纵向联邦学习过程,以及潜在威胁分别进行了概述,并从对抗性攻击和非对抗性攻击两个角度,分析了投毒攻击、对抗样本攻击和推理攻击等常见攻击的基本概念、实施阶段和现有方案。

进一步地,依据不同的攻击方式,将防御手段划分为鲁棒性提升方法和隐私性增强技术两类:鲁棒性提升方法主要防御系统遭受的对抗性攻击,包括有数据消毒、鲁棒性聚合、异常检测、对抗训练、知识蒸馏、剪枝和其他方法等,隐私性增强技术主要防御系统遭受的非对抗性攻击,包括有同态加密、安全多方计算、差分隐私和区块链等。

最后,本文给出了联邦学习中鲁棒性和隐私性方面的未来研究方向。


2

联邦学习概念

依照传统机器学习过程的划分,联邦学习则可以分为三个阶段:数据收集阶段、训练阶段和推理 阶段。联邦学习在这三个阶段都具有新的特点。 


(1) 数据收集阶段:指训练模型所需要的数据 准备过程。在传统机器学习中需要对每个用户的数据进行集中收集,为模型训练做准备。而在联邦学 习中,数据集不会离开本地,具体为本地的数据收 集、用户之间数据格式的协商等准备过程。


(2) 模型训练阶段:指利用这些数据集执行机 器学习训练算法,挖掘数据的潜在价值,迭代训练一定轮次后直至收敛的过程。在联邦学习中,由于 数据集的分布式划分以及隐私性要求,需要使用特 定的模型训练算法。 


(3) 推理阶段:指把训练好的模型部署在具体 的应用场景中,输入真实样本进行预测的过程。在 横向联邦学习中这一阶段和传统机器学习没有太 大差异,但是在纵向联邦学习场景中,由于每个用 户只拥有一部分模型,推理阶段需要用户之间的合作才能完成推理过程。


3

联邦学习常见攻击

在联邦学习的不同阶段会受到不同的安全威胁和隐私威胁。在数据收集阶段,受到的安全威胁包括数据投毒攻击(Data Poisoning Attack)、女巫攻击(Sybil Attack)和搭便车攻击(Free-riding Attacks),隐私威胁包括样本 ID 隐私泄露。


在训练阶段,受到的安全威胁包括模型投毒攻击(ModelPoisoning Attack)、针对通信瓶颈(Communication Bottlenecks)的攻击和搭便车攻击,隐私威胁包括推理攻击(Inference Attack)。


在推理阶段,会受到的安全威胁包括对抗样本攻击,隐私威胁包括模型提取攻击(Model Extraction Attack)和推理攻击。

4

联邦学习常见防御手段

为了预防联邦学习的常见攻击,并提升联邦学习鲁棒性,常见的防御手段有以下几种:


1. 数据消毒:数据消毒(Data Sanitization)是指对有害的、 异常的数据进行清理,是针对数据投毒攻击的防御通用方法。


2. 鲁棒性聚合:在经典联邦学习框架下,服务器的聚合方案是 联邦学习架构的核心部分。2017 年,McMahan 和 Ramage 1首次提出了实现多用户分布式训练的 FedSGD 算法,不泄露本地数据,仅将中间梯度发送给服务器。随后的研究为了减少用户与服务器 之间的通信量提出了 FedAvg 算法,选择直接上传 多轮本地训练的模型,并取平均值作为全局模型。


3. 异常检测:异常检测(Anomaly Detection)旨在使用统计和分析方法对模型的训练模式、数据集或相关事件进行甄别,若检测到不符合预期的模式、异常行为 或异常数据,则系统会预警并做出反应措施。目前异常检测模型主要集中对系统中的客户端异常检 测和数据异常检测两个方面的研究。


4. 对抗训练:对抗训练(Adversarial Training)是指在模型训练的过程中加入微弱扰动,以提高系统鲁棒性的防御方式。传统对抗训练攻击方法大多应用于集中的机器学习框架下,并且主要关注对抗训练数据 的生成。


5. 知识蒸馏:在不同模型训练场景中,若想实现更好的预测 结果,往往会选择集成许多较弱模型,但这样会导 致更大的计算量和更多的资源空间占用。知识蒸馏 (Knowledge Distillation)作为模型压缩技术之一, 就是将大模型相关知识逐步传递到小模型中,并从大模型学到的知识中学习有用信息来指导小模型训练,使小模型具备和大模型相当的性能。在 需要频繁交换训练信息的联邦学习中,知识蒸馏可以有效地降低通信开销、节省存储空间和降低参数冗余,从而防御针对通信瓶颈的攻击。


6. 剪枝:剪枝(Pruning)技术也是一种模型压缩技术, 可以在用户的计算能力和通信带宽相对较低的情况下,将联邦学习模型的大小进行修剪,降低模型 复杂度和提高精度。


7. 其他方法:此外,还有一些其他的鲁棒性提升方法。例如, PDGAN用 GAN 生成测试数据集,用于识别数据 投毒攻击,通过不断改变部署策略从而增加攻击成 本 和 复 杂 度 的 移 动 目 标 防 御 ( Moving Target Defense),对原始数据进行随机化处理,使用梯度正则化防止过拟合,以及基于GAN的防御等。


5

未来研究方向

联邦学习中的攻击和防御发展尚不成熟,仍然存在很多问题亟待解决,其中以下四类问题值得进一步地研究。

1. 攻击检测与模型评估研究:联邦学习的迅速发展势必会带来多样化形式的安全与隐私威胁。数据用户可能会主动或被动的从诚实状态转变为恶意状态,模型训练过程中操作处理也可能会受环境因素发生异常,这些问题往往会严重影响系统性能。


2. 完善的安全攻防体系研究:由于现有的联邦学习协议还未发展成熟,相应的体系还不够完善,仅仅依靠现有的防御手段无法 预防未来未知的攻击威胁。若系统面对一种全新或 特殊的攻击威胁,没有提前预备方案,即无法满足已成型的技术产品安全需求;同时,若系统面对混合多种攻击的安全威胁,仅依靠传统的单一解决方案,也很难达到有效的防御效果。


3. 纵向联邦学习安全及隐私研究:现有的联邦学习安全及隐私的研究,尤其在安 全威胁及防御方面,主要集中在横向联邦学习场景下,而在纵向联邦学习场景中模型训练与部署更加复杂,相关的研究还非常少。


4. 兼顾鲁棒性和隐私性的联邦学习研究:鲁棒性与隐私性是联邦学习系统在实际应用 中需要考虑的两个维度指标,两者缺一不可。然而鲁棒性提升与隐私性增强之间存在矛盾,例如很多隐私保护手段试图尽量减少不同用户梯度信息的 差异,而这常常会阻碍一些鲁棒性提升方法对异常数据的识别。

本文来源:计算机学报


分享仅供学习参考,若有不当,请联系我们处理。


END

1.论文合集 | 联邦学习 x INFOCOM'2023

2.笔记分享|组队学习密码学(5)— 密码数学基础:初等数论

3.论文分享 | 具有可信执行环境的混合信任多方计算

4. 论文分享|基于Vector OLE构造的恶意安全的PSI协议(VOLE-PSI)


个人观点,仅供参考
继续滑动看下一个
隐私计算研习社
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存