数据挖掘中隐私保护问题的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:namedmat123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术,是知识发现的关键步骤。用户可以采用数据挖掘技术从海量数据中挖掘出有意义的信息和知识,随着数据挖掘技术在军事、政府、金融等重要部门的广泛应用,它们所带来的对隐私和信息安全所构成的威胁越来越受到人们的高度重视。在通过数据挖掘应用向用户提供有意义的信息和规则的同时,如何保护挖掘所使用到的数据集中的私密信息以及隐藏那些具有更高敏感性的挖掘结果,正逐渐成为信息安全和数据挖掘中的隐私保护的研究热点,也是数据挖掘技术在实际应用中亟待解决的问题之一。本文介绍了目前数据挖掘中隐私保护问题的研究现状,对目前常用的数据挖掘隐私保护方法进行了分析和研究。主要工作有以下几个方面: (1)研究了数据挖掘中隐私保护的基本问题及主要解决方法。 (2)介绍了数据扰动方法的主要思想及其相关的数据重构算法。 (3)对关联规则挖掘中的隐私保护方法进行了研究,分析了规则隐藏算法的不足,并提出了一种优化的规则隐藏算法—OSA算法。与原算法相比,OSA算法减少了被丢失的以及新生规则的数量。 (4)对聚类挖掘中的隐私保护方法进行了研究,并给出了一种基于几何数据变换的聚类挖掘隐私保护方法。该方法采用了图形学中有关几何图形的几何变换方法来实现数据扰动,适合于在聚类挖掘中实现隐私保护。 (5)基于数据散列函数的特点,提出了一种基于折叠方法设计的数据散列函数转换方法。与其它的数据扰动方法相比,该方法可以在不产生噪声数据的情况下实现隐私保护,并可以获得与原数据集相同的挖掘结果。
其他文献
信念修正是agent各种智能行为的逻辑基础。随着对多agent系统的市场需求和科学研究的迅速发展,多agent信念修正具有越来越重要的理论价值和应用意义。目前多agent信念修正研究
数据网格作为一种大型分布式系统,具有数据分散存储、数据I/O吞吐量大、节点间拓扑结构易变等特性。而适应数据网格特性的“动态副本分布”能够为地理位置上广泛分布的各类数
随着电子信息技术的发展以及手机用户的逐渐增多,利用手机短信进行信息传播的商业价值变得越来越大。短信服务在应用过程中和电子邮件系统一样,也出现了大量的垃圾信息。它可能
近年来,通过提高过程质量而提高软件产品质量的思想得到了广泛的认可,并出现了一系列而向过程的质量模型。其中,美国SEI(SoftwareEngineeringInstitute软件工程研究所)1991年提
通过对楼宇管理现状的分析,提出了“楼宇信息系统(BIS)”的概念。BIS是一个基于楼宇空间数据的网络地理信息系统,它充分利用网络资源,在客户端以图形方式显示楼宇空间数据,并可对
DNA分子计算是高性能计算的新兴领域,经过学者们30年的努力,研究出了很多分子计算模型。但大多基于生物技术,在实现上有很多限制。论文引入了一种在分子计算原理和传统计算机
高精加工是当今数控系统发展的主要方向。决定数控系统高速高精性能的重要因素有二,即运动控制算法和运动控制参数。在实现高速高精加工过程中,对数控系统性能指标的分析以及
随着计算机网络技术的广泛应用,网络安全问题已不容忽视,作为一个面向大众的开放系统,计算机网络面临着来自各方面的威胁和攻击。因此,网络安全系统的构建是一个非常重要的问题,它
目前国内高新技术产业园区一般都有自己的经济数据管理系统,但是这些经济数据管理系统往往局限于简单的数据处理,无法提供有关经济运行情况监测、评价以及其它决策支持功能,不能
软件工程技术得到了飞速的发展,软件逐渐开始扮演核心和关键的角色,软件开发也日益引起人们的重视。然而,成本、质量以及用户满意度这三个指标仍然难以同时得到满足,软件开发依然