论文部分内容阅读
随着信息技术应用的普及和深入,各种信息系统存储并积累了丰富的数据。人们对于数据的需求极大地促进了数据的采集、存储、发布、共享和分析。然而,数据集里通常包含着个人的隐私信息,直接发布包含敏感信息的数据或者对已发布的数据进行分析都有可能造成个人隐私的泄漏。如何通过解决数据发布和数据分析带来的隐私威胁问题,来防止用户的个人隐私信息或者敏感数据的泄露成为当前的热点问题。 差分隐私作为一种新的隐私定义,解决了传统隐私模型的主要缺陷,无需考虑攻击者所拥有的任何可能的背景知识,并且对隐私保护进行了严格的定义,提供了量化评估方法。在实施差分隐私的过程中主要考虑算法隐私性和经过处理后数据的可用性这两方面的问题。 分类是一类重要的数据挖掘方法,在数据预测分析中起着关键作用。决策树是分类模型的典型代表,它的学习和分类步骤是简单和快速的,是许多商业规则归纳系统的基础。然而决策树分类结果本身以及相应的计数信息都有可能泄露用户隐私信息,存在个人隐私泄露的风险。差分隐私下的决策树分类算法研究,主要考虑在算法满足差分隐私的前提下提高分类数据的可用性。 本论文主要取得了以下两个方面的成果; 1.分析了现有差分隐私下的决策树分类算法研究。根据基于框架的不同,从基于交互式框架以及非交互式框架两个方面对现有的差分隐私下的决策树分类算法研究进行了分类整理,了解研究现状的同时指出待解决的问题,为后续研究奠定了基础。 2.提出了一种满足差分隐私的随机森林分类算法。数据集中属性维度高,这给差分隐私应用于决策树分类带来了挑战。对此本文提出了一种基于交互式差分隐私保护框架的随机森林分类算法DiffP-RFs。该算法在每一棵决策树的构建过程中采用指数机制选择分裂点和分裂属性,并利用拉普拉斯机制添加噪声扰动真实计数值。在整个算法过程中满足ε-差分隐私保护,并相对于已有算法,本文提出的方法无需对数据进行离散化预处理,消除了高维度大数据离散化预处理对于分类系统性能的消耗,便捷地实现分类并保持了较高的分类准确度。 3.对提出的算法进行了实验验证。通过具体的实验对DiffP-RFs算法的可用性进行分析、验证和说明。以UCI机器学习数据库中的adult数据集检验算法的有效性,并在相同的测试条件下与DiffPRF算法以及随机森林分类算法进行比较。通过实验结果证明本算法在保证数据安全性的前提下,提供了更加便捷高效的分类方法,连续属性与离散属性都可以直接处理,同时也保证了数据的可用性。