面向社会网络数据发布的差分隐私保护方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:baoxiuli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于社会网络的飞速发展,使得关于社会网络的研究日益增多。人们透过社会网络可以了解许多社会现象,如疾病传播、情绪感染、职业流动等。社会网络上每天都会产生大量的数据,这些数据大多与个人生活密切相关,利用多样的社会网络分析与数据挖掘方法,可以揭示这些数据背后潜在的知识和价值。如若这些数据被入侵者恶意使用,社会网络中用户的隐私将会受到极大的威胁,这类隐私安全问题如今也受到越来越多的关注和重视。本文针对社会网络数据发布中存在的隐私安全问题,深入研究并提出具体的差分隐私保护方法,为社会网络分析及数据挖掘等方法提供隐私保证。
  ε?差分隐私(简称ε?DP),是针对统计数据库中的隐私泄露问题提出的一种隐私定义。差分隐私定义了一个极为严格的攻击模型,无需考虑攻击者所拥有的任何可能的背景知识。本文将差分隐私应用到社会网络隐私保护中,从离线数据的角度分析问题,以非交互式的方式发布结果数据。具体根据不同的数据发布场景,即实际的发布需求、发布数据的特性,以及关于隐私问题的不同的关注点展开研究工作。其中,发布场景一与场景二是针对边权重的隐私泄露问题,发布场景三与场景四是针对边信息的隐私泄露问题,具体的研究工作如下:
  首先,针对推荐系统中计算预测评级时的隐私泄露问题,提出一种方法结合两种扰动方式发布预测评级结果。在发布场景一中,用户-项目偏好图是一个二部图,边权重表示用户个人的评级数据,该项评级内容关联着敏感信息,发布预测结果时需要保护不被泄漏。该方法是基于差分隐私进行协同过滤,隐藏个人的评级信息并提供有价值的预测结果,具体使用已有的算法来计算预测评级,关于相似性的计算是基于用户-用户相似性,即是借助于用户之间的某种行为关系。DPI(DP Input)方法扰动原始的评级,任何推荐算法都可以基于此数据直接进行预测。基于原始的评级,DPM(DP Manner)方法是在算法实现的过程中扰动所需的各种测量值并提供预测评级。最后,通过在真实数据集上的仿真实验表明,在保证差分隐私的前提下,两种方法都能够提供有价值的预测结果,即可以实现隐私保护下的预测推荐任务。
  其次,针对加权网络中的边权重的隐私保护问题,提出一种MB?CI(Merging Barrels and Consistency Inference)扰动策略。在发布场景二中,假设网络的拓扑结构是已知的公开信息,其中仅有边的权重关联着敏感信息,可以表示通信的频率、商品交易的价格、关系的亲密度等。该方法是将边权重序列视为一个无归属直方图,基于这个直方图可以实现对网络中的边权重的差分隐私保护。考虑到在社会网络中,必然有部分边具有相同的权重值,则把具有相同计数的桶合并为一个组以减少噪声的添加量。此外,提出一个组间K?不可区分的概念来满足差分隐私不被侵犯,因为简单的合并操作可能会通过噪声自身的量级泄露一些信息。为了保持大多数的最短路径不变,作为一步重要的后置处理操作,再根据权重序列的初始次序进行一致性处理。最后,通过在合成数据集和真实数据集上的仿真实验表明,该方法在保证差分隐私的前提下,能够有效的提高发布数据的精度和可用性。
  再次,针对网络统计中发布聚集信息时的隐私泄露问题,为了提供更多关于社会网络中群体之间的行为信息、或簇之间的模式信息,提出一种基于边-差分隐私的方法,发布各个社区聚集系数的分布情况。在发布场景三中,任意两个结点之间的边可以表示朋友关系、合作关系、交易关系等,网络中一条边的存在与否被视为敏感信息。该方法具体包括两个算法,DPLM(DP Louvain Method)算法与DPCC(DP Clustering Coefficient)算法,分别进行隐私保护下的社区划分及发布直方图。算法DPLM应用指数机制,改编Louvain社区发现算法。由于引入了随机性,提出绝对增益的概念替代原算法中的相对增益。具体在优化模块度阶段,为每个结点净化邻居社区,即保留有效社区并从中随机选择可移入的社区。算法DPCC使用直方图的形式输出聚集系数的噪声分布,即以更直观的方式呈现结果数据。最后,通过在真实数据集上的仿真实验表明,该方法在保证边-差分隐私的前提下,能够提供有价值的数据分布结果,算法DPLM作为社区发现方法的一种改进,同时能够获得更优的网络模块度。
  最后,为了在隐私保护下发布社会网络图,以再现社科研究中有价值的结果,提出一种基于wPINQ平台的改进算法rTbI实现图重构计算。在发布场景四中,图中任意两点之间边的存在与否被视为敏感信息。该方法是基于边-差分隐私,扰动发布图的结构以保证图中的边信息不泄露。初始的工作流源于一个种子图,该图实质上是一个满足噪声度序列的1K?图。鉴于不够精确的同配系数,该方法截断工作流以替换一个更优的种子图,该图通过对原种子图进行目标1K?重连接,设定目标即为同配系数,同时保持1K-分布。然后,MCMC过程使用新的种子图作为初始状态,通过TbI(Triangles by Intersect)查询所提供的相关信息,以一步一步迭代的方式逐步提高合成图中三角形的数量。最后,通过在真实数据集上的仿真实验表明,该方法在保证边-差分隐私的前提下,能够更好的保持所发布的社会网络图的数据可用性。
其他文献
随着移动互联网的迅速发展,移动网络流量呈现爆发式的突涨。移动用户对于各种内容文件的服务需求也日益增长。因此为了应对这些挑战,非常有必要向下一代移动网络架构引入新的技术应对流量骤增的现状。近些年,在移动网络边缘部署缓存被视为一种很有潜力的技术,通过在基站等边缘设备缓存流行内容,提高内容在网络内部的重复利用性,避免重复内容占用大量的网络资源。然而,移动边缘缓存的性能优化研究整体缺乏全面性与自适应性。同
学位
近年来,大型商场和仓库每年因盗窃而损失的金额达到千亿美元,而商品的盗窃检测系统都有着不完善的地方。传统的视频监控的方式很大程度上受到光线条件的影响,而现有基于射频识别(RadioFrequencyIdentification,简称为RFID)技术的盗窃检测系统不能有效处理一些非人为因素的误报警情况,如RFID系统的检测范围不明确导致可能识别到商场或仓库中未移动的物品,现有的基于RFID的盗窃检测系
学位
随着社交网络的迅速发展,越来越多的用户习惯于通过文本、图像、视频等多种媒体形式分享自己观点,参与其他用户的互动交流。挖掘并捕捉其中蕴含的主观性信息对于舆情分析、市场营销与投资预测等具有重大意义。因此,多模态情感分析已经成为人工智能领域的核心研究课题之一,引起学术界和工业界的共同关注。然而,研究界对交互特性的理解尚未明确与深入,建模交互的研究方法相对简单,以经典概率理论为基础的传统方法在交互建模方面
在近年来,机器视觉的发展紧随人工智能主流,机器人装配视觉依然成为必然趋势,机器视觉和机器人相结合的领域将具有广泛的应用前景,对机器人的灵活性和可操作性的提升具有决定性意义。今天的自动化机器视觉系统是名副其实的多功能化,机器人智能系统可以阅读代码,识别部件,操作机器和控制过程,它们还可以测试产品质量,并为优化生产操作提供有价值的数据,它们的多功能性是无限的。  机器视觉主要由机器视觉测量系统、机器视
学位
网络社区是人们共享知识、相互交流、沟通的平台。分析网络社区中人们留下的信息能够更好地理解帮助理解用户的偏好,辅助企业决策,从而创造更高的经济价值。情感分析是对包含情感因素的文本进行特征提取和选择的分类过程,人们可以从评论文本中分析用户对某个主题所表现出来的情感倾向。文本中包含的情感复杂多变,例如音乐社区中,人们对于音乐的评价所蕴含的情感,可能同时包含有多种情感的类别,如何准确的对文本的情感特征进行
学位
随着网络技术、计算机技术、智能芯片等技术的高速发展,以智能手机为代表的智能终端得到普及,作为物理世界和网络世界纽带的物联网应运而生。自诞生之日起,物联网受到世界各国政府以及专家学者的高度重视并取得瞩目的成果。物联网取得飞速发展的同时,其引发的安全问题日益突出:物联网用户身份安全认证问题,感知数据的数字完整性保护问题和感知层网络入侵问题等。  为了感知物理世界,物联网需要部署海量异构的感知节点以周期
学位
科学计算伴随着计算机的发展在众多应用领域得到了广泛的应用,同时,多核处理器的普及有力地推进了并行计算在科学计算中的主导地位。对角矩阵求解是并行计算应用的一个重要方面,诸如计算机图形学、流体力学、泊松方程求解、三次样条曲线、萃取精馏塔以及大气模式等很多领域都涉及对角矩阵求解的科学计算问题。但现实中,科学计算应用的实际运行性能与期望性能的差距与日俱增,尤其大数据时代的到来让这一问题变得更加重要与紧迫,
学位
医学图像处理技术作为医疗的重要技术手段,发挥着不可替代的作用。脑瘤是影响人类健康的重要原因之一,基于核磁共振图像(Magnetic Resonance Imaging, MRI)进行脑胶质瘤标志物分割辨识是目前最有效的医疗诊断技术手段之一,因此,研究脑瘤MRI图像分割技术具有重要的理论研究意义和实际应用价值。  本文针对脑胶质瘤MRI图像目标物形状复杂且不规则、边缘模糊、目标和背景灰度值相近等特征
学位
延迟容忍网络(Delay Tolerant Networks, DTNs)作为一个新兴的研究方向,是一种利用节点移动所带来的相遇机会实现消息传输的自组织网络。作为实现“受限网络”互联问题的主要解决方案,延迟容忍网络极大地拓展了无线网络的应用,并推动了网络技术的不断发展。延迟容忍网络不满足传统互联网的基本假设,其端到端之间不存在稳定持续的链路,无法使用现有的“存储-转发”路由模式进行消息传输,其采用
随着位置感知技术和移动互联网络技术的飞速发展,各种各样的移动服务终端成为人们生活中不可或缺的一部分,提供位置服务的应用程序更是为人们带来了极好的用户体验。其中,位置数据是位置服务应用中不可缺少的重要角色。位置服务应用程序需要获得用户的位置以提供服务,因此用户位置数据的精准度与服务的质量密切相关。与此同时,各类基于位置服务的应用程序可产生大量的位置数据,而通过一定的统计和分析就会得到用户的隐私信息,
学位