集成学习的差分隐私保护方法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:AJ0704
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,每天都有海量的数据产生,这大大提升了机器学习算法性能的同时,也让其遭受到了巨大的隐私威胁。机器学习的隐私保护已经成为当前的一个研究热点。集成学习作为机器学习的一个重要分支,被认为是人群智慧的机器学习解释,其主要思想是通过规则训练多个学习器,然后根据某种组合策略进行组合,最后以投票的方式输出最终结果。集成学习由其高精度和稳定等特点被广泛应用到数据挖掘、医疗诊断等多个领域。但是,在个人隐私问题备受关注的今天,如果将训练好的集成模型或集成模型提取到的知识直接发布出去会泄露用户的隐私。因此,如何在不泄露用户隐私的条件下保证集成模型的性能是一个很有意义的研究问题。
  差分隐私是一种具有强数学理论支撑的隐私保护技术,其主要思想是通过添加随机噪声对真实值进行扰动,简单且易于实现,并且还可以量化隐私保护水平。迄今为止,差分隐私已经成为机器学习隐私保护最常用的技术之一。差分隐私应用到集成学习的研究已有部分成果,但仍然存在一些挑战。本文在已有研究的基础上,分别对Bagging算法及其隐私保护和随机森林算法及其隐私保护做进一步的研究。在实现隐私保护的条件下同时保证模型的分类精度,本研究工作主要从以下三个方面开展:一是改善非差分隐私基分类器的性能;二是优化隐私预算分配策略,提高隐私预算的利用率;三是根据差分隐私基分类器质量对差分隐私集成模型剪枝,而不是像以往的研究工作,只是简单地将所有差分隐私基分类器进行组合。基于以上考虑,本文在第三章和第四章分别研究了增量Bagging的差分隐私保护方法和两阶段随机森林的差分隐私保护方法,具体如下:
  提出基于差分隐私的增量Bagging算法。为了提高差分隐私Bagging算法的分类精度,该算法首先考虑如何提高基分类器的多样性和优化隐私预算分配,在训练数据集生成阶段分别使用Bag of Little Bootstrap采样和杰卡德相似度系数做预处理,从而提高训练数据集之间的差异性。为了提高隐私预算的利用率,设计一种自适应隐私预算分配策略。然后,考虑到由差分隐私引入的噪声可能完全覆盖真实值,导致差分隐私基分类器的可用性极低,无法保证集成的性能。所以与传统的差分隐私集成学习相比,该方法在组合阶段不是简单地将所有差分隐私基分类器进行组合,而是通过某个准则挑选一个差分隐私基分类器子集组合成最终的差分隐私集成模型,该过程也被称为差分隐私集成剪枝。
  提出基于差分隐私的两阶段随机森林算法。现有的基于相关性的随机森林算法在构造决策树时,直接将最相关的属性作为划分属性,并没有通过某种度量准则从一些有前景的属性中挑选最优划分属性。但是,最相关的属性不一定就是最优的,如信息增益准则就对可以取不同值多的属性有偏好。针对这个问题,该方法在考虑属性之间的相关性之余,通过一个准则得到候选划分属性子集,并且设计一个Boolean测试函数在该属性子集上执行将数据划分到左右两个孩子结点。为了防止隐私泄露,在构造决策树过程中利用指数机制来挑选划分平面,利用拉普拉斯机制对叶结点进行扰动。考虑到基分类器之间的互补性,提出了基于差分隐私的两阶段随机森林算法。
  通过在真实数据集上进行大量实验来评估上述两种算法的分类效果,不仅与其他方法进行比较,还对隐私保护和实验结果进行了理论分析。
其他文献
当前,人们利用互联网进行信息传递日益频繁,图像、视频等多媒体数据被广泛于各种互联网应用,因此如何确保信息在传输过程中的安全已成为一个亟待解决的重要问题。初期阶段,研究人员使用加密技术将原始信息内容打乱成无实际意义的乱码,有效解决了信息的安全问题。随着云存储与大数据技术的兴起,越来越多的用户希望将数据传送到云端保存。由于对服务商的不信任,因此许多用户会对信息进行加密,然后再上传到云端,这导致云端出现
学位
随着各种网络社交平台的兴起,文本作为这些平台的主要信息载体,数据量每天都在高速增长,如何正确处理这些海量的文本信息,即,将文本分类管理和应用,已经成为一项重要研究课题。近年来,文本分类的深度学习方法获得快速发展,可以快速准确的对大规模文本数据进行处理,具有广阔的应用前景。因此,本论文瞄准文本分类的深度学习方法,在下面两个方面取得研究进展:(1)提出基于改进的Cluster GCN的文本分类方法。首
学位
多相流现象对我们的生活生产具有重要的借鉴和指导意义,在能源的开发与储备、生命科学的研究与探索、材料的制备与应用等方面有着广阔的发展前景。其中多相流中液滴弹跳现象与我们的生活最为紧密,已经应用于我们的生活中,如打印、喷涂、自清洁等。液滴弹跳现象的研究在国内外已经取得了丰硕的成果,但仍然还有许多未被研究和深入探索的领域,特别是对液滴弹跳现象定量分析的研究相当少,加之液滴微尺度、瞬息变化快、易于变形等诸
学位
随着移动拍照设备的广泛使用,每天连续产生大量的图像,传统的图像数据管理工作包括图像存储、处理和检索技术已经无法适应快速增长的数据所带来的压力。用户往往将大量图像数据外包到云服务器以减少本地存储成本,同时为了确保图像安全防止隐私泄露而选择在外包之前对图像数据进行加密。然而加密后的图像数据失去了明文特征和数据之间的关联性,影响用户对图像数据的管理,导致无法进行高效地图像检索。虽然可以事先构造加密索引并
图像检索是模式识别中极具挑战性的研究方向。其中特征提取和紧凑的特征描述是图像检索技术的重要组成部分。传统的图像检索技术主要由两部分组成:(1)基于文本的图像检索(TBIR);(2)基于内容的图像检索(CBIR)。TBIR技术存在局限性且难以精确描述图像内容,而CBIR虽然能够通过低层视觉特征传达图像信息,但在高层语义表达方面仍存在很多不足。近些年,卷积神经网络(CNN)在图像检索和图像分类等任务中
学位
多相流不仅普遍存在于生活之中,在许多自然现象和工业生产中更有广泛应用。更好地了解和研究多相流的机理和性能,不仅能够帮助人们了解自然认识自然,在工业生产中创造更多的价值,而且在科学进步以及能源开采等方面有着重要的意义。表面润湿性作为多相流中的一个重要性质,用于表征液体在固体表面的延展能力,用接触角的大小来进行度量。接触角是在液体表面和固体表面之间的接触位置形成的特征角度,是很多工业应用和自然现象的基
学位
癌症驱动模块对癌症精准医疗和个性化医疗的重要性,使癌症驱动模块识别问题成为生物信息学的研究热点。对该问题的研究方法主要分为两大类:一类是从头识别方法,另一类是基于先验知识的识别方法。本文主要利用第二类方法对识别问题进行研究,针对组学数据噪声多、不完整、单一组学数据信息有限等特征,通过蛋白质相互作用网络整合多组学数据信息以提高数据的完整性和准确性,提出基于网络模型的癌症驱动模块识别方法,主要工作如下
轨迹数据可以反映用户的兴趣和偏好,如果没有经过匿名化处理,这些私人数据是不能直接发布的。基于用户的轨迹数据,攻击者能够根据用户的部分位置进行时空关联推测出用户的其他敏感位置信息,导致用户隐私的泄露。目前,大多数轨迹数据发布中的隐私保护方法要么将所有的位置信息都视为敏感信息,要么只单从位置标签或访问频率进行敏感位置的区分,以提高数据的效用性。然而,不同的位置对于不同的用户而言,是具有不同敏感度的,如
学位
近年来,随着我国经济的发展,无人机行业取得了蓬勃的发展。无人机在军事勘察、环境监测、应急指挥、农业生产等领域有着广泛的应用。在这些应用中,需要利用无人机拍摄图像或影像。当利用无人机拍摄图像时,受到飞行高度和相机焦距的限制,单幅图像往往无法覆盖整个目标区域。因此需要对无人机拍摄的多幅航拍图像进行拼接,来获取覆盖整个目标区域的图像。一直以来,图像拼接都是国内外研究的热点。完整的图像拼接包括图像获取、图
学位
可满足性问题(SAT)是第一个被证明的NP-完全问题,在人工智能和计算机科学中占据着重要的位置,许多问题都可以转化为SAT问题进行求解。最近杨洋等人提出了一种新的基于局部搜索的扩展规则方法ERACC(Extension Rule Based on Accurate Configuration Checking),该方法突破了传统基于扩展规则方法对实例规模的局限。然而,ERACC在k-SAT(k&g