论文部分内容阅读
随着互联网技术的迅速发展,每天都有海量的数据产生,这大大提升了机器学习算法性能的同时,也让其遭受到了巨大的隐私威胁。机器学习的隐私保护已经成为当前的一个研究热点。集成学习作为机器学习的一个重要分支,被认为是人群智慧的机器学习解释,其主要思想是通过规则训练多个学习器,然后根据某种组合策略进行组合,最后以投票的方式输出最终结果。集成学习由其高精度和稳定等特点被广泛应用到数据挖掘、医疗诊断等多个领域。但是,在个人隐私问题备受关注的今天,如果将训练好的集成模型或集成模型提取到的知识直接发布出去会泄露用户的隐私。因此,如何在不泄露用户隐私的条件下保证集成模型的性能是一个很有意义的研究问题。
差分隐私是一种具有强数学理论支撑的隐私保护技术,其主要思想是通过添加随机噪声对真实值进行扰动,简单且易于实现,并且还可以量化隐私保护水平。迄今为止,差分隐私已经成为机器学习隐私保护最常用的技术之一。差分隐私应用到集成学习的研究已有部分成果,但仍然存在一些挑战。本文在已有研究的基础上,分别对Bagging算法及其隐私保护和随机森林算法及其隐私保护做进一步的研究。在实现隐私保护的条件下同时保证模型的分类精度,本研究工作主要从以下三个方面开展:一是改善非差分隐私基分类器的性能;二是优化隐私预算分配策略,提高隐私预算的利用率;三是根据差分隐私基分类器质量对差分隐私集成模型剪枝,而不是像以往的研究工作,只是简单地将所有差分隐私基分类器进行组合。基于以上考虑,本文在第三章和第四章分别研究了增量Bagging的差分隐私保护方法和两阶段随机森林的差分隐私保护方法,具体如下:
提出基于差分隐私的增量Bagging算法。为了提高差分隐私Bagging算法的分类精度,该算法首先考虑如何提高基分类器的多样性和优化隐私预算分配,在训练数据集生成阶段分别使用Bag of Little Bootstrap采样和杰卡德相似度系数做预处理,从而提高训练数据集之间的差异性。为了提高隐私预算的利用率,设计一种自适应隐私预算分配策略。然后,考虑到由差分隐私引入的噪声可能完全覆盖真实值,导致差分隐私基分类器的可用性极低,无法保证集成的性能。所以与传统的差分隐私集成学习相比,该方法在组合阶段不是简单地将所有差分隐私基分类器进行组合,而是通过某个准则挑选一个差分隐私基分类器子集组合成最终的差分隐私集成模型,该过程也被称为差分隐私集成剪枝。
提出基于差分隐私的两阶段随机森林算法。现有的基于相关性的随机森林算法在构造决策树时,直接将最相关的属性作为划分属性,并没有通过某种度量准则从一些有前景的属性中挑选最优划分属性。但是,最相关的属性不一定就是最优的,如信息增益准则就对可以取不同值多的属性有偏好。针对这个问题,该方法在考虑属性之间的相关性之余,通过一个准则得到候选划分属性子集,并且设计一个Boolean测试函数在该属性子集上执行将数据划分到左右两个孩子结点。为了防止隐私泄露,在构造决策树过程中利用指数机制来挑选划分平面,利用拉普拉斯机制对叶结点进行扰动。考虑到基分类器之间的互补性,提出了基于差分隐私的两阶段随机森林算法。
通过在真实数据集上进行大量实验来评估上述两种算法的分类效果,不仅与其他方法进行比较,还对隐私保护和实验结果进行了理论分析。
差分隐私是一种具有强数学理论支撑的隐私保护技术,其主要思想是通过添加随机噪声对真实值进行扰动,简单且易于实现,并且还可以量化隐私保护水平。迄今为止,差分隐私已经成为机器学习隐私保护最常用的技术之一。差分隐私应用到集成学习的研究已有部分成果,但仍然存在一些挑战。本文在已有研究的基础上,分别对Bagging算法及其隐私保护和随机森林算法及其隐私保护做进一步的研究。在实现隐私保护的条件下同时保证模型的分类精度,本研究工作主要从以下三个方面开展:一是改善非差分隐私基分类器的性能;二是优化隐私预算分配策略,提高隐私预算的利用率;三是根据差分隐私基分类器质量对差分隐私集成模型剪枝,而不是像以往的研究工作,只是简单地将所有差分隐私基分类器进行组合。基于以上考虑,本文在第三章和第四章分别研究了增量Bagging的差分隐私保护方法和两阶段随机森林的差分隐私保护方法,具体如下:
提出基于差分隐私的增量Bagging算法。为了提高差分隐私Bagging算法的分类精度,该算法首先考虑如何提高基分类器的多样性和优化隐私预算分配,在训练数据集生成阶段分别使用Bag of Little Bootstrap采样和杰卡德相似度系数做预处理,从而提高训练数据集之间的差异性。为了提高隐私预算的利用率,设计一种自适应隐私预算分配策略。然后,考虑到由差分隐私引入的噪声可能完全覆盖真实值,导致差分隐私基分类器的可用性极低,无法保证集成的性能。所以与传统的差分隐私集成学习相比,该方法在组合阶段不是简单地将所有差分隐私基分类器进行组合,而是通过某个准则挑选一个差分隐私基分类器子集组合成最终的差分隐私集成模型,该过程也被称为差分隐私集成剪枝。
提出基于差分隐私的两阶段随机森林算法。现有的基于相关性的随机森林算法在构造决策树时,直接将最相关的属性作为划分属性,并没有通过某种度量准则从一些有前景的属性中挑选最优划分属性。但是,最相关的属性不一定就是最优的,如信息增益准则就对可以取不同值多的属性有偏好。针对这个问题,该方法在考虑属性之间的相关性之余,通过一个准则得到候选划分属性子集,并且设计一个Boolean测试函数在该属性子集上执行将数据划分到左右两个孩子结点。为了防止隐私泄露,在构造决策树过程中利用指数机制来挑选划分平面,利用拉普拉斯机制对叶结点进行扰动。考虑到基分类器之间的互补性,提出了基于差分隐私的两阶段随机森林算法。
通过在真实数据集上进行大量实验来评估上述两种算法的分类效果,不仅与其他方法进行比较,还对隐私保护和实验结果进行了理论分析。