保持隐私的数据挖掘

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lfwvb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十世纪最具影响力的创新莫过于人类拥有了能处理大量数字化信息的IT技术,虽然计算机和网络在全球范围内对社会生活的各个方面的发展起到迅猛的推动作用,但是,它们也将人们的隐私置于极为尴尬的境地。传统的隐私是一个非常抽象的概念,在信息技术时代,隐私权则意味着用户隐藏私有信息,并在一定程度上控制提供给他人自己信息的使用权。在网络和计算机中,隐私与其他信息一样以“0”和“1”的现实的单个数据或者数据集合的形式出现。  为了从大数据集中提取用户可理解和适用的知识,人们研究并发展了数据挖掘技术,它以崭新的方式来总结原始数据。在分布式环境中,数据通常分散在不同的站点内,传统的数据挖掘需要将所有数据集中在数据仓库或数据集市进行统一开采。然而,由于隐私、法律、军事和商业利益等原因,数据的集中受到了限制,因此,结合隐私保持就成为数据挖掘发展的一个必然趋势,其目的是研究新的算法或协议使得在不共享各方原始数据的情况下,进行正确的数据挖掘,同时隐藏开采模型中的隐私信息。  根据传统时代和信息时代隐私的不同含义,以及数据挖掘中隐私的概念,明确了保持隐私的数据挖掘的目标;并结合数据分布方式、隐私保护技术、挖掘任务、数据挖掘算法中常用的安全计算工具等多个方面,对现有的保持隐私的数据挖掘做了较全面的综述。  在简要探讨保持隐私的数据挖掘的一般原理和典型技术之后,依据多方安全计算理论实现了保持隐私的数据挖掘。  点积作为一种计算工具,被许多数据挖掘任务所采用。在分析现有的安全点积协议的基础上,依据完全的两方安全计算模型,提出了一种新颖的PPSP安全点积协议,并进行了安全性和计算/通讯开销的分析,实验验证了协议的有效性。由于采用了数据置换和分段技术,各方的安全性都得到了提高。另外,借助半诚实的第三方的参与,提出了ESSP协议和EPPSP协议,分析表明,ESSP协议可以使各方获得一致的安全性,而EPPSP协议则可以提高协议的性能。  关联规则和分类挖掘的关键步骤分别是寻找全局频繁项集和为每个节点找到最佳属性,在应用安全的点积协议于关联规则和分类挖掘时,给出了能有效地计算项集的支持度、属性的熵和信息增益的方法,它们都采用了安全的点积计算,不仅可以保持单个数据记录不为它方所知,还可以保护所发现的模式中的敏感信息,在不泄漏各自的事务项的情况下,获得正确的关联规则和分类树。  为了协调安全性和性能之间的矛盾,提出了一种现实的多方安全计算模式。该模式在保障挖掘结果正确性的前提下,既能提供“可以接受”的数据隐私,又有“可以接受”的计算/通讯开销。  异常检测被用来发现数据集中显著不同于其它数据的对象,为了保持隐私,基于现实的多方安全计算模式,提出了一种结合多方安全计算和数据干扰技术的方案。其中,将超出阈值距离的成对的点的序号进行通讯,同时,随机选取一定数量的正常范围的成对的点分散在上述集合中,并运用安全和方法来挖掘全局异常点;既隐藏了真实的信息,又提高了算法的效率。
其他文献
该文在系统地研究国内外CIMS的应用发展状况和CIMS组成、特点等文献的基础上,结合涟钢CIMS应用示范工程(LGCIMS)中生产管理子系统的设计和实现,对CIMS中的开发方法和信息集成
近年来,模糊理论和神经网络的结合是研究的热点.神经网络与模糊理论相结合可以取长补短,从而得到一种既具有学习、联想、自适应性,又能进行模糊揄、推理的新型结构.模糊神经
该文借助计算机网络原理及技术对大连大学校园网建设方案进行初步分析和技术上的探讨,并针对其中的关键技术、网络结构方案进行了较详细的分析和比较,设计出了大连大学校园网
该文主要研究了基于网络环境的雷达杂波数据库的设计与实现技术.在对雷达环境杂波测试、建模和统计分析的过程中,建立杂波数据库对雷达系统的设计和分析,雷达性能模拟仿真、
Flash芯片作为一种安全、快速的存储体,具有体积小、容量大、成本低、掉电数据不丢失等一系列优点,已成为嵌入式系统中数据和程序最主要的载体。Flash型存储器适用于大容量数据
该文首先介绍了分布式数据库的现状和未来,然后提出了野战分布式多媒体数据库系统的系统设计,并在服务器与客户机的通信、数据字典和开发工具设计等方面进行了深入的探讨.在
该文以信息加密作为重点研究方向,阐述信息加密技术的基本方法,并在分析各种已有加密算法的基础上,对公钥机密算法RSA算法提出了一种改进型实现.同时为了系统的实用性、高强
该论文高度概括了当前工作流管理系统(Workflow Management System,简记为WFMS)的方法学和软件产品.目前已经有许多商品化产品,但是这些系统尽管有用,却规划的不好,在容错
该文首先介绍了Intranet应用的基本结构及原理,对当前流行的几种Intranet应用实现模式进行了分析比较,指出各自的优缺点及适用范围,然后以企业应用的逻辑结构划分为线索,论述
该文系统地研究了国内外CIMS的应用发展状况,CIMS组成、特点等.该文结合《涟钢CIMS应用示范工程》中区域管理系统的设计和实现,对数据采集和查询技术进行了较为深入地探讨.实