论文部分内容阅读
随着互联网的高速发展,人类的一切日常活动,如线上/线下购物、医疗诊治、网络搜索甚至于日常通信等等,都可以被跟踪、记录和存储在交易型数据集中。对外发布和共享这类隐含着海量信息的交易型数据集可以为各类研究和企业决策提供有力的数据支撑,但它同时会对个人隐私造成严重的威胁。因此,如何在对外发布和共享交易型数据集时提出一种有效的方法,既使得用户隐私得到保护又使得信息损失尽可能地降低,是具有非常重要的理论和现实意义的。本文从交易型数据集拥有者的角度综合考虑了成员隐私保护、身份隐私保护、属性隐私保护和关联规则保护,并提出了一种新的度量数据效用的方法,即效用增益值。为了更好地权衡交易型数据发布过程中的隐私保护和数据效用,本文基于切片技术,提出了两种不同的面向交易型数据集隐私保护的方法,即熵L-多元性切片方法和t-接近度切片方法。首先,为了克服现有的交易型数据隐私保护研究中的不足,本文基于熵L-多元性模型和切片技术,提出了面向交易型数据集隐私保护的熵L-多元性切片方法。根据该方法的基本思想给出具体的算法设计,并证明了该方法的高效性。针对三个不同的交易型数据集进行数值实验,实验结果显示:熵L-多元性切片方法不仅能够有效地保护交易型数据集中的成员隐私、身份隐私、属性隐私和关联规则,还在降低数据效用损失的方面优于熵L-多元性剖分方法。其次,针对熵L-多元性切片方法不能解决的斜交攻击问题,本文在交易型数据隐私保护的研究中引入了t-接近度模型,并基于切片技术提出了面向交易型数据隐私保护的t-接近度切片方法。基于该方法的基本思想设计具体的算法,并给出该算法的时间复杂度分析。数值实验结果表明:t-接近度切片方法不仅能够有效地保护交易型数据集中的成员隐私、身份隐私、属性隐私和关联规则,还比t-接近度剖分方法更高效地降低了数据效用的损失。本文提出了交易型数据的隐私保护方法,以更加有效地权衡在交易型数据发布过程中的隐私保护和数据效用,也就是在有效地保护个人隐私的前提下,尽可能地提高发布的交易型数据集的可用性。