论文部分内容阅读
差分隐私(Differential Privacy(DP))已经成为目前最流行的隐私保护技术之一,它对隐私泄露能够提供数学上严格的定量控制。近些年来关于差分隐私大量的研究不断被提出,其主要作用是保护数据或者模型。其中以差分隐私为基础的数据发布式算法,能够将原始数据集转化为具有类似性质的人工数据集,从而保护原始数据。另外,许多研究目的是提高在差分隐私保护下的数据挖掘模型效果。然而实现差分隐私需要引入噪声,这会导致数据的分布损失或模型的精度损失,而这些损失对于对数据或模型有严格要求的工业界来说是不可接受的。为了提高差分隐私保护下模型的精度,以及尝试实现差分隐私在工业系统中的应用,本文分别从定量挖掘与定性分析的角度来研究差分隐私技术。定量挖掘方面,我们研究的是差分隐私用于保护决策树模型,前人采取嵌入一层数据挖掘计算的方式将差分隐私应用在决策树模型上(每次操作生成两层子树),从而保护模型,防止模型的结构被使用者逆推出来。我们采取嵌入两层或两层以上数据挖掘计算的方式实现带有差分隐私保护的决策树模型(每次操作生成三层或三层以上的子树),当子树解空间过大时使用马尔科夫链(Markov Chain Monte Carlo(MCMC))来模拟解空间的分布。定性分析方面,前人均是从定量挖掘的角度来研究差分隐私,即关注于提高模型的效果,本文从另一个新的角度定性分析出发,研究差分隐私数据发布式算法对原始数据集属性关系的影响。定性分析目的是研究数据的排行、模式或重要集合等,天然对噪声有着更好的容纳能力。我们设计了一个差分隐私定性分析框架,使用两个典型的定性分析任务作为样例,让数据购买者能够更加深入地了解原始数据集的属性关系,从而更好地利用购买到的人工数据集,在这整个过程中原始数据的隐私不被泄露。本文的主要工作与贡献如下:·前人将差分隐私以一层深度嵌入到决策树模型中,我们提出了一个新的想法,将差分隐私以不同的深度嵌入到决策树中,以提高模型的预测效果。·我们提出了使用穷举搜索与马尔科夫链的算法,能够时间上有效率地将差分隐私以任意的深度地嵌入到决策树模型中。·实验证明,随着差分隐私嵌入深度的增加,决策树模型的表现效果提高了,深度结合差分隐私与决策树确实能够提高模型预测准确度。·与定量挖掘相比,定性分析天然地对噪声有着更好的容纳能力。我们首次进行了差分隐私定性分析的研究,尝试找到一种方式,将差分隐私应用在工业系统中。·我们提出了以差分隐私为基础的定性分析框架,用于帮助数据购买者实现定性分析任务,并得到结果的置信度。我们使用了两个典型的定性分析任务(两个分类器)作为样例,来演示这个框架的应用。·在公开与私有工业数据集上的实验结果显示,使用定性分析的框架,即使隐私预算ε很小(例如0.05),定性分析任务仍然能够以很高的置信度来完成,差分隐私的定性分析有着更大的潜能去实现差分隐私在工业系统中的应用。差分隐私是十分有效的隐私保护技术,越来越受到人们的重视。本文选取定量挖掘中差分隐私与决策树模型的结合,进行算法上的改进。另外从一个新的角度,定性分析来研究差分隐私在工业系统中应用的可能性。希望本文的工作能够为差分隐私在提高模型效果或工业应用上带来新的思路,为差分隐私技术的发展做出贡献。