论文部分内容阅读
二十世纪最具影响力的创新莫过于人类拥有了能处理大量数字化信息的IT技术,虽然计算机和网络在全球范围内对社会生活的各个方面的发展起到迅猛的推动作用,但是,它们也将人们的隐私置于极为尴尬的境地。传统的隐私是一个非常抽象的概念,在信息技术时代,隐私权则意味着用户隐藏私有信息,并在一定程度上控制提供给他人自己信息的使用权。在网络和计算机中,隐私与其他信息一样以“0”和“1”的现实的单个数据或者数据集合的形式出现。 为了从大数据集中提取用户可理解和适用的知识,人们研究并发展了数据挖掘技术,它以崭新的方式来总结原始数据。在分布式环境中,数据通常分散在不同的站点内,传统的数据挖掘需要将所有数据集中在数据仓库或数据集市进行统一开采。然而,由于隐私、法律、军事和商业利益等原因,数据的集中受到了限制,因此,结合隐私保持就成为数据挖掘发展的一个必然趋势,其目的是研究新的算法或协议使得在不共享各方原始数据的情况下,进行正确的数据挖掘,同时隐藏开采模型中的隐私信息。 根据传统时代和信息时代隐私的不同含义,以及数据挖掘中隐私的概念,明确了保持隐私的数据挖掘的目标;并结合数据分布方式、隐私保护技术、挖掘任务、数据挖掘算法中常用的安全计算工具等多个方面,对现有的保持隐私的数据挖掘做了较全面的综述。 在简要探讨保持隐私的数据挖掘的一般原理和典型技术之后,依据多方安全计算理论实现了保持隐私的数据挖掘。 点积作为一种计算工具,被许多数据挖掘任务所采用。在分析现有的安全点积协议的基础上,依据完全的两方安全计算模型,提出了一种新颖的PPSP安全点积协议,并进行了安全性和计算/通讯开销的分析,实验验证了协议的有效性。由于采用了数据置换和分段技术,各方的安全性都得到了提高。另外,借助半诚实的第三方的参与,提出了ESSP协议和EPPSP协议,分析表明,ESSP协议可以使各方获得一致的安全性,而EPPSP协议则可以提高协议的性能。 关联规则和分类挖掘的关键步骤分别是寻找全局频繁项集和为每个节点找到最佳属性,在应用安全的点积协议于关联规则和分类挖掘时,给出了能有效地计算项集的支持度、属性的熵和信息增益的方法,它们都采用了安全的点积计算,不仅可以保持单个数据记录不为它方所知,还可以保护所发现的模式中的敏感信息,在不泄漏各自的事务项的情况下,获得正确的关联规则和分类树。 为了协调安全性和性能之间的矛盾,提出了一种现实的多方安全计算模式。该模式在保障挖掘结果正确性的前提下,既能提供“可以接受”的数据隐私,又有“可以接受”的计算/通讯开销。 异常检测被用来发现数据集中显著不同于其它数据的对象,为了保持隐私,基于现实的多方安全计算模式,提出了一种结合多方安全计算和数据干扰技术的方案。其中,将超出阈值距离的成对的点的序号进行通讯,同时,随机选取一定数量的正常范围的成对的点分散在上述集合中,并运用安全和方法来挖掘全局异常点;既隐藏了真实的信息,又提高了算法的效率。