论文部分内容阅读
随着人工智能的快速发展与移动设备的普及,需要多个参与方协作的应用场景不断涌现,分布式数据处理和分布式机器学习的作用日益凸显。比如分散在多个银行的金融数据、不同医院里的医疗记录、大平台下的每个用户的行为记录,以及智能电表、传感器或移动设备等产生的数据都需要分布式处理与挖掘。数据孤岛是分布式数据处理和分布式机器学习面临的重要挑战之一,作为解决数据孤岛的解决方案,联邦学习是一种很有前景的分布式计算框架,可以在多个分散的边缘设备上本地训练模型,而无需将其数据传输到服务器。随着公民隐私意识的提高和相关法律的完善,联邦学习中的隐私安全问题也日益受到人们的关注,且最新的研究工作表明已经能通过对模型的梯度参数进行攻击,还原用户的隐私数据,即仅通过保持数据的局部性来保护隐私是不够的,并且隐私保护技术在保护隐私的同时,还会牺牲模型精度。为此,本文使用差分隐私技术来保护联邦学习中用户的隐私,并针对分布式场景,分析模型的收敛性质,选取更为合理的参数,从而降低干扰噪声,实现提高模型精度的目的。本文主要工作包括如下几个方面:·基于联邦学习的事务级差分隐私模型为解决现有隐私算法通常需要牺牲模型精度来提高模型隐私性,从而使得模型可用性降低的挑战,我们对联邦学习场景下的事物级差分模型进行了三方面的优化:第一,针对分布式场景,提出了一个更紧致的敏感度上界;第二,相对于传统的隐私预算平均分配,提出了一个更好的隐私预算分配策略;第三,根据所加的噪声量的大小分配权重,减小整体的噪声影响。·基于联邦学习的混合差分隐私模型在上述算法的基础上,进一步提出混合差分隐私模型,从而按需分配隐私模型,降低全局模型的噪声影响。此外,我们还分析了在差分隐私机制下联邦学习算法的收敛性,并根据训练中的两个误差项分别提了改进方法,即裁剪值学习方法和改进的组合方法。·基于联邦学习的差分隐私保护针对模型训练中的隐私安全问题,我们将改进的差分隐私技术引入联邦学习框架,实现隐私保护的联邦学习系统,用以保护训练过程中客户端的数据隐私。首先,参数服务器生成全局初始模型并分发给每个客户端;其次,每个客户端本地训练完成之后,根据客户隐私需求加入相应的差分隐私噪声;最后参数服务器聚合客户端上传的模型,如果存在信任服务器的用户,则注入差分隐私噪声,以保护他们的隐私。