论文部分内容阅读
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术,是知识发现的关键步骤。用户可以采用数据挖掘技术从海量数据中挖掘出有意义的信息和知识,随着数据挖掘技术在军事、政府、金融等重要部门的广泛应用,它们所带来的对隐私和信息安全所构成的威胁越来越受到人们的高度重视。在通过数据挖掘应用向用户提供有意义的信息和规则的同时,如何保护挖掘所使用到的数据集中的私密信息以及隐藏那些具有更高敏感性的挖掘结果,正逐渐成为信息安全和数据挖掘中的隐私保护的研究热点,也是数据挖掘技术在实际应用中亟待解决的问题之一。本文介绍了目前数据挖掘中隐私保护问题的研究现状,对目前常用的数据挖掘隐私保护方法进行了分析和研究。主要工作有以下几个方面:
(1)研究了数据挖掘中隐私保护的基本问题及主要解决方法。
(2)介绍了数据扰动方法的主要思想及其相关的数据重构算法。
(3)对关联规则挖掘中的隐私保护方法进行了研究,分析了规则隐藏算法的不足,并提出了一种优化的规则隐藏算法—OSA算法。与原算法相比,OSA算法减少了被丢失的以及新生规则的数量。
(4)对聚类挖掘中的隐私保护方法进行了研究,并给出了一种基于几何数据变换的聚类挖掘隐私保护方法。该方法采用了图形学中有关几何图形的几何变换方法来实现数据扰动,适合于在聚类挖掘中实现隐私保护。
(5)基于数据散列函数的特点,提出了一种基于折叠方法设计的数据散列函数转换方法。与其它的数据扰动方法相比,该方法可以在不产生噪声数据的情况下实现隐私保护,并可以获得与原数据集相同的挖掘结果。