论文部分内容阅读
由于社会网络的飞速发展,使得关于社会网络的研究日益增多。人们透过社会网络可以了解许多社会现象,如疾病传播、情绪感染、职业流动等。社会网络上每天都会产生大量的数据,这些数据大多与个人生活密切相关,利用多样的社会网络分析与数据挖掘方法,可以揭示这些数据背后潜在的知识和价值。如若这些数据被入侵者恶意使用,社会网络中用户的隐私将会受到极大的威胁,这类隐私安全问题如今也受到越来越多的关注和重视。本文针对社会网络数据发布中存在的隐私安全问题,深入研究并提出具体的差分隐私保护方法,为社会网络分析及数据挖掘等方法提供隐私保证。
ε?差分隐私(简称ε?DP),是针对统计数据库中的隐私泄露问题提出的一种隐私定义。差分隐私定义了一个极为严格的攻击模型,无需考虑攻击者所拥有的任何可能的背景知识。本文将差分隐私应用到社会网络隐私保护中,从离线数据的角度分析问题,以非交互式的方式发布结果数据。具体根据不同的数据发布场景,即实际的发布需求、发布数据的特性,以及关于隐私问题的不同的关注点展开研究工作。其中,发布场景一与场景二是针对边权重的隐私泄露问题,发布场景三与场景四是针对边信息的隐私泄露问题,具体的研究工作如下:
首先,针对推荐系统中计算预测评级时的隐私泄露问题,提出一种方法结合两种扰动方式发布预测评级结果。在发布场景一中,用户-项目偏好图是一个二部图,边权重表示用户个人的评级数据,该项评级内容关联着敏感信息,发布预测结果时需要保护不被泄漏。该方法是基于差分隐私进行协同过滤,隐藏个人的评级信息并提供有价值的预测结果,具体使用已有的算法来计算预测评级,关于相似性的计算是基于用户-用户相似性,即是借助于用户之间的某种行为关系。DPI(DP Input)方法扰动原始的评级,任何推荐算法都可以基于此数据直接进行预测。基于原始的评级,DPM(DP Manner)方法是在算法实现的过程中扰动所需的各种测量值并提供预测评级。最后,通过在真实数据集上的仿真实验表明,在保证差分隐私的前提下,两种方法都能够提供有价值的预测结果,即可以实现隐私保护下的预测推荐任务。
其次,针对加权网络中的边权重的隐私保护问题,提出一种MB?CI(Merging Barrels and Consistency Inference)扰动策略。在发布场景二中,假设网络的拓扑结构是已知的公开信息,其中仅有边的权重关联着敏感信息,可以表示通信的频率、商品交易的价格、关系的亲密度等。该方法是将边权重序列视为一个无归属直方图,基于这个直方图可以实现对网络中的边权重的差分隐私保护。考虑到在社会网络中,必然有部分边具有相同的权重值,则把具有相同计数的桶合并为一个组以减少噪声的添加量。此外,提出一个组间K?不可区分的概念来满足差分隐私不被侵犯,因为简单的合并操作可能会通过噪声自身的量级泄露一些信息。为了保持大多数的最短路径不变,作为一步重要的后置处理操作,再根据权重序列的初始次序进行一致性处理。最后,通过在合成数据集和真实数据集上的仿真实验表明,该方法在保证差分隐私的前提下,能够有效的提高发布数据的精度和可用性。
再次,针对网络统计中发布聚集信息时的隐私泄露问题,为了提供更多关于社会网络中群体之间的行为信息、或簇之间的模式信息,提出一种基于边-差分隐私的方法,发布各个社区聚集系数的分布情况。在发布场景三中,任意两个结点之间的边可以表示朋友关系、合作关系、交易关系等,网络中一条边的存在与否被视为敏感信息。该方法具体包括两个算法,DPLM(DP Louvain Method)算法与DPCC(DP Clustering Coefficient)算法,分别进行隐私保护下的社区划分及发布直方图。算法DPLM应用指数机制,改编Louvain社区发现算法。由于引入了随机性,提出绝对增益的概念替代原算法中的相对增益。具体在优化模块度阶段,为每个结点净化邻居社区,即保留有效社区并从中随机选择可移入的社区。算法DPCC使用直方图的形式输出聚集系数的噪声分布,即以更直观的方式呈现结果数据。最后,通过在真实数据集上的仿真实验表明,该方法在保证边-差分隐私的前提下,能够提供有价值的数据分布结果,算法DPLM作为社区发现方法的一种改进,同时能够获得更优的网络模块度。
最后,为了在隐私保护下发布社会网络图,以再现社科研究中有价值的结果,提出一种基于wPINQ平台的改进算法rTbI实现图重构计算。在发布场景四中,图中任意两点之间边的存在与否被视为敏感信息。该方法是基于边-差分隐私,扰动发布图的结构以保证图中的边信息不泄露。初始的工作流源于一个种子图,该图实质上是一个满足噪声度序列的1K?图。鉴于不够精确的同配系数,该方法截断工作流以替换一个更优的种子图,该图通过对原种子图进行目标1K?重连接,设定目标即为同配系数,同时保持1K-分布。然后,MCMC过程使用新的种子图作为初始状态,通过TbI(Triangles by Intersect)查询所提供的相关信息,以一步一步迭代的方式逐步提高合成图中三角形的数量。最后,通过在真实数据集上的仿真实验表明,该方法在保证边-差分隐私的前提下,能够更好的保持所发布的社会网络图的数据可用性。
ε?差分隐私(简称ε?DP),是针对统计数据库中的隐私泄露问题提出的一种隐私定义。差分隐私定义了一个极为严格的攻击模型,无需考虑攻击者所拥有的任何可能的背景知识。本文将差分隐私应用到社会网络隐私保护中,从离线数据的角度分析问题,以非交互式的方式发布结果数据。具体根据不同的数据发布场景,即实际的发布需求、发布数据的特性,以及关于隐私问题的不同的关注点展开研究工作。其中,发布场景一与场景二是针对边权重的隐私泄露问题,发布场景三与场景四是针对边信息的隐私泄露问题,具体的研究工作如下:
首先,针对推荐系统中计算预测评级时的隐私泄露问题,提出一种方法结合两种扰动方式发布预测评级结果。在发布场景一中,用户-项目偏好图是一个二部图,边权重表示用户个人的评级数据,该项评级内容关联着敏感信息,发布预测结果时需要保护不被泄漏。该方法是基于差分隐私进行协同过滤,隐藏个人的评级信息并提供有价值的预测结果,具体使用已有的算法来计算预测评级,关于相似性的计算是基于用户-用户相似性,即是借助于用户之间的某种行为关系。DPI(DP Input)方法扰动原始的评级,任何推荐算法都可以基于此数据直接进行预测。基于原始的评级,DPM(DP Manner)方法是在算法实现的过程中扰动所需的各种测量值并提供预测评级。最后,通过在真实数据集上的仿真实验表明,在保证差分隐私的前提下,两种方法都能够提供有价值的预测结果,即可以实现隐私保护下的预测推荐任务。
其次,针对加权网络中的边权重的隐私保护问题,提出一种MB?CI(Merging Barrels and Consistency Inference)扰动策略。在发布场景二中,假设网络的拓扑结构是已知的公开信息,其中仅有边的权重关联着敏感信息,可以表示通信的频率、商品交易的价格、关系的亲密度等。该方法是将边权重序列视为一个无归属直方图,基于这个直方图可以实现对网络中的边权重的差分隐私保护。考虑到在社会网络中,必然有部分边具有相同的权重值,则把具有相同计数的桶合并为一个组以减少噪声的添加量。此外,提出一个组间K?不可区分的概念来满足差分隐私不被侵犯,因为简单的合并操作可能会通过噪声自身的量级泄露一些信息。为了保持大多数的最短路径不变,作为一步重要的后置处理操作,再根据权重序列的初始次序进行一致性处理。最后,通过在合成数据集和真实数据集上的仿真实验表明,该方法在保证差分隐私的前提下,能够有效的提高发布数据的精度和可用性。
再次,针对网络统计中发布聚集信息时的隐私泄露问题,为了提供更多关于社会网络中群体之间的行为信息、或簇之间的模式信息,提出一种基于边-差分隐私的方法,发布各个社区聚集系数的分布情况。在发布场景三中,任意两个结点之间的边可以表示朋友关系、合作关系、交易关系等,网络中一条边的存在与否被视为敏感信息。该方法具体包括两个算法,DPLM(DP Louvain Method)算法与DPCC(DP Clustering Coefficient)算法,分别进行隐私保护下的社区划分及发布直方图。算法DPLM应用指数机制,改编Louvain社区发现算法。由于引入了随机性,提出绝对增益的概念替代原算法中的相对增益。具体在优化模块度阶段,为每个结点净化邻居社区,即保留有效社区并从中随机选择可移入的社区。算法DPCC使用直方图的形式输出聚集系数的噪声分布,即以更直观的方式呈现结果数据。最后,通过在真实数据集上的仿真实验表明,该方法在保证边-差分隐私的前提下,能够提供有价值的数据分布结果,算法DPLM作为社区发现方法的一种改进,同时能够获得更优的网络模块度。
最后,为了在隐私保护下发布社会网络图,以再现社科研究中有价值的结果,提出一种基于wPINQ平台的改进算法rTbI实现图重构计算。在发布场景四中,图中任意两点之间边的存在与否被视为敏感信息。该方法是基于边-差分隐私,扰动发布图的结构以保证图中的边信息不泄露。初始的工作流源于一个种子图,该图实质上是一个满足噪声度序列的1K?图。鉴于不够精确的同配系数,该方法截断工作流以替换一个更优的种子图,该图通过对原种子图进行目标1K?重连接,设定目标即为同配系数,同时保持1K-分布。然后,MCMC过程使用新的种子图作为初始状态,通过TbI(Triangles by Intersect)查询所提供的相关信息,以一步一步迭代的方式逐步提高合成图中三角形的数量。最后,通过在真实数据集上的仿真实验表明,该方法在保证边-差分隐私的前提下,能够更好的保持所发布的社会网络图的数据可用性。