云环境下具有隐私保护的K-means聚类算法研究与设计

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:amwygah021121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,K-means聚类是数据挖掘中非常经典和常用的方法之一,它通过计算数据项之间的距离可以把相似的数据项聚集在一起。随着信息化、数字化、网络化进程加速,经济全球化已成为一种不可逆的趋势,聚类算法中的数据来源越来越多样化,数据安全越来越重要。考虑到数据会来自多个参与方,在这些数据中可能包含关于参与方的敏感信息或私人信息,如果这些信息在多个参与方之间共享,那么数据的隐私性将不能得到保证。具有隐私保护的联合数据挖掘可以在保护用户数据和挖掘结果隐私性的同时,对多个参与方的联合数据库进行数据挖掘,进一步提取出有用的信息。因此,如何设计出具有隐私保护的联合数据挖掘算法成为一个需要解决的难题。半诚实模型在许多情况下是符合实际场景的,该模型下数据的隐私性是通过各个参与方始终遵循协议来保证的。但是为保证数据的隐私性,该模型下的解决方案通常因为计算消耗和通信消耗较高,所以实际中并不可行。如今,随着科学技术的进步,越来越多的企业将数据存储在云平台,同时分布式云计算框架也为处理大数据提供强大的计算能力。本论文将借助云计算强大的计算能力提升算法的效率,保证算法的可行性。针对具有隐私保护的数据挖掘中存在的性能问题,本论文开展了对现有具有隐私保护的数据挖掘算法的深入研究,进而在水平划分的数据集上提出一种高效的具有隐私保护的K-means聚类算法,该算法支持有两个数据拥有者和云平台同时存在的存储外包和计算外包。数据以密文形式存储在云端,云平台通过与两个数据拥有者交互,完成在双方的联合数据集上K-means聚类数据挖掘的任务。本论文分别设计不同的安全协议解决具有隐私保护的K-means聚类算法中的三个技术难题:解决密文距离计算问题的安全距离计算协议、解决密文比较问题的安全比较协议和解决密文除法问题的安全电路协议。进而将这些安全协议应用到聚类算法框架中,实现具有隐私保护的K-means聚类算法。本论文从理论上分析了该算法的时间复杂度、空间复杂度和通讯复杂度,给出该算法在半诚实模型下的安全性证明,并且证明该算法在重计算质心点阶段允许参与方中最多有一个方为恶意方的安全性,最后通过实验计算加密数据的时间消耗和一次迭代过程中各参与方的时间消耗,验证了算法的可行性。
其他文献
无人飞行器进行输电线路巡检是一项刚起步的新技术,融合了各个领域的知识和技术,相比于人工巡检方法,能提高输电线路巡检的工作效率,降低电力设备的维护成本。本文围绕四旋翼
随着计算机技术、Internet技术的不断发展和信息处理技术在各个领域中的广泛采用,现代企业面临的系统环境越来越复杂,使用的应用系统的数量也越来越多。这些应用系统可能是使
对于无线传感器网络这种新型的分布式网络系统,时间同步技术是至关重要的。传统的能够良好应用于Internet的NTP(Network Time Protocol)协议和与世界标准时间UTC(Universal T
随着网络入侵事件的不断增加和黑客攻击水平的不断提高,一方面网络病毒泛滥、遭受攻击的速度日益加快,另一方面网络受到攻击做出响应的时间却越来越滞后。解决这一矛盾,传统
随着社会经济的发展和科学技术的进步,特别是城市人口的急剧增加和城市化进程的飞速发展,大空间场所会越来越多。由于大空间场所火灾具有传播速度快、灭火和营救都比较困难等特
图像分割(Image Segmentation)是将图像划分成若干具有特征一致性且互不重叠的图像区域的过程。图像分割技术长期以来得到人们的广泛关注和研究。皮肤分割也是图像分割中一个
计算机及网络的发展对我国考试系统的改革起到了举足轻重的作用,网络报名、网络考试、网上报志愿、网络阅卷等新模式的引入极大地推动了考试系统的发展和完善。其中,网络阅卷是
目前,针对恶意代码传播建模的主要研究方法为数学微分动力学方程,但该方法形式变化有限,灵活性欠佳,不同模型之间节点变换大同小异,得出的演化结果趋势也大致相同,实质上并没
近年来随着新需求、新技术不断涌现,传统的单一网络提供的业务已不再满足用户对业务的需求,跨网融合业务的出现已成为趋势。在实现融合业务过程中,会话控制系统是重要保障。
本体能够解决特定应用中的知识共享问题,因而在实际应用中,不同用户和团体常常根据不同的应用需求与应用领域构建或选择合适的本体,使本体所描述的内容在语义上往往重叠或关