差分隐私下的随机森林分类算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lhmfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术应用的普及和深入,各种信息系统存储并积累了丰富的数据。人们对于数据的需求极大地促进了数据的采集、存储、发布、共享和分析。然而,数据集里通常包含着个人的隐私信息,直接发布包含敏感信息的数据或者对已发布的数据进行分析都有可能造成个人隐私的泄漏。如何通过解决数据发布和数据分析带来的隐私威胁问题,来防止用户的个人隐私信息或者敏感数据的泄露成为当前的热点问题。  差分隐私作为一种新的隐私定义,解决了传统隐私模型的主要缺陷,无需考虑攻击者所拥有的任何可能的背景知识,并且对隐私保护进行了严格的定义,提供了量化评估方法。在实施差分隐私的过程中主要考虑算法隐私性和经过处理后数据的可用性这两方面的问题。  分类是一类重要的数据挖掘方法,在数据预测分析中起着关键作用。决策树是分类模型的典型代表,它的学习和分类步骤是简单和快速的,是许多商业规则归纳系统的基础。然而决策树分类结果本身以及相应的计数信息都有可能泄露用户隐私信息,存在个人隐私泄露的风险。差分隐私下的决策树分类算法研究,主要考虑在算法满足差分隐私的前提下提高分类数据的可用性。  本论文主要取得了以下两个方面的成果;  1.分析了现有差分隐私下的决策树分类算法研究。根据基于框架的不同,从基于交互式框架以及非交互式框架两个方面对现有的差分隐私下的决策树分类算法研究进行了分类整理,了解研究现状的同时指出待解决的问题,为后续研究奠定了基础。  2.提出了一种满足差分隐私的随机森林分类算法。数据集中属性维度高,这给差分隐私应用于决策树分类带来了挑战。对此本文提出了一种基于交互式差分隐私保护框架的随机森林分类算法DiffP-RFs。该算法在每一棵决策树的构建过程中采用指数机制选择分裂点和分裂属性,并利用拉普拉斯机制添加噪声扰动真实计数值。在整个算法过程中满足ε-差分隐私保护,并相对于已有算法,本文提出的方法无需对数据进行离散化预处理,消除了高维度大数据离散化预处理对于分类系统性能的消耗,便捷地实现分类并保持了较高的分类准确度。  3.对提出的算法进行了实验验证。通过具体的实验对DiffP-RFs算法的可用性进行分析、验证和说明。以UCI机器学习数据库中的adult数据集检验算法的有效性,并在相同的测试条件下与DiffPRF算法以及随机森林分类算法进行比较。通过实验结果证明本算法在保证数据安全性的前提下,提供了更加便捷高效的分类方法,连续属性与离散属性都可以直接处理,同时也保证了数据的可用性。
其他文献
立体视频系统是一种面向未来的能够提供立体感和交互功能的视频系统,可广泛应用于数字化医疗、消费娱乐和远程教育等领域。立体图像在立体视频系统中经过采集、编码、传输、
由于可以方便的管理IP地址,动态的为网络中的客户端分配地址,从而方便的进行网络配置,DHCP服务成为网络基础性服务,在现代网络体系架构中被广泛采用。为了防止DHCP服务器的单
数据挖掘是在海量的数据中寻找模式或规则的过程。数据聚类则是数据挖掘中的一项重要技术,是人们认识和探索事物之间内在联系的有效手段,它既可以作为独立的数据挖掘工具,从
高精度时间数字转换器(TDC)用于将两个物理事件发生的时间间隔转化为数字量,广泛应用于核物理实验、空间科学、电力传输、同步授时、航空航天、芯片设计、卫星导航、数字通信
随着国民经济的快速发展,对煤炭等能源的需求量不断攀升,煤矿生产负荷过重,各类事故时有发生,如何提高煤矿生产的效率、确保生产的安全成为社会关注的热点问题。然而传统的煤
近年来,随着计算机和网络技术的迅速发展与广泛应用,社会的信息化程度不断提高,使用计算机和网络已经成为人们生活和工作中不可缺少的组成部分。同时人类社会对各种计算系统的可
随着集成电路的发展,功耗问题已经成为制约现代片上系统设计的重要因素。功耗的增加不仅导致芯片消耗更多的能量,增加芯片的封装和散热成本,而且会对芯片的性能和可靠性造成
嵌入标识是人工添加到视频上的具有特定含义的标识,如电视标识、栏目标识、网站标识等等。视频中的嵌入标识包含着重要的语义信息,对其识别可以为视频内容分析提供重要语义信
随着网络服务的不断增长,尤其是近年来云存储的发展,使得需要存储的数据量越来越多。与此同时,数据价值的重要性使得企业和个人都难以容忍数据的丢失,大型商业应用对连续性存
税收是保障国家经济有序发展、政治持续稳定的强制性管理手段,严格、准确、及时地收缴税款体现着国家的意志和利益。因此国内厂家基于GB18240标准纷纷研制税控管理系统,完善现