论文部分内容阅读
轨迹数据可以反映用户的兴趣和偏好,如果没有经过匿名化处理,这些私人数据是不能直接发布的。基于用户的轨迹数据,攻击者能够根据用户的部分位置进行时空关联推测出用户的其他敏感位置信息,导致用户隐私的泄露。目前,大多数轨迹数据发布中的隐私保护方法要么将所有的位置信息都视为敏感信息,要么只单从位置标签或访问频率进行敏感位置的区分,以提高数据的效用性。然而,不同的位置对于不同的用户而言,是具有不同敏感度的,如果只考虑位置标签或访问频率,就会存在过保护和保护力度不够等情况,一方面不能有效的保护用户的隐私,另一方面还降低了发布的轨迹数据的效用性。因此,本文针对轨迹数据发布中如何精确识别用户敏感位置以及相应的隐私保护方案展开了研究,提出了一个基于知识图谱的敏感信息精确识别与自适应匿名方法PSR&PPM_KG(Precise Sensitivity Recognizing,Privacy Preserving,Knowledge Graph-basedMethod for Trajectory Data Publication),能够精确识别轨迹上不同用户的敏感位置,并能够提供级别的隐私安全保证。主要研究工作如下:
(1)对离线应用场景中用户轨迹中敏感位置的识别方法和轨迹数据发布的隐私保护方法进行了综述和分析,指出现有的方法和技术在轨迹数据上识别用户的敏感位置不够精确的问题,以致在解决轨迹数据发布的隐私保护中存在数据效用性低、信息损失严重的问题,并对现有技术和方法进行了详细的阐述和分析。
(2)为了解决轨迹上用户的敏感位置识别不够精确的问题,本文构造了一个融合了用户属性、位置标签及其关系的轨迹知识图谱,并基于知识图谱设计了一种精确的敏感位置识别算法,通过从知识图谱中提取关联规则来获得知识,能够精确识别出用户粒度级别的个性化敏感位置。
(3)基于以上提出的敏感位置识别方法,结合局部抑制方法提出了一种自适应匿名化方法,针对精确识别出来的敏感位置进行了隐私保护。本文从隐私安全性和信息损失两个方面对性能进行了理论分析,证明了本文提出的方法能够为发布出来的轨迹数据提供有效的隐私保护并能提高发布的轨迹数据的效用性。
(4)本文在常用数据集Oldenburg和Movielens上针对以上方法进行了实验测试,并从平均误差率(Average error rate)、标准偏差(Standard drviation)和F-measure这三个方面进行了性能评估。实验结果表明PSR&PPM_KG算法在数据效用性方面更具有优势。
(1)对离线应用场景中用户轨迹中敏感位置的识别方法和轨迹数据发布的隐私保护方法进行了综述和分析,指出现有的方法和技术在轨迹数据上识别用户的敏感位置不够精确的问题,以致在解决轨迹数据发布的隐私保护中存在数据效用性低、信息损失严重的问题,并对现有技术和方法进行了详细的阐述和分析。
(2)为了解决轨迹上用户的敏感位置识别不够精确的问题,本文构造了一个融合了用户属性、位置标签及其关系的轨迹知识图谱,并基于知识图谱设计了一种精确的敏感位置识别算法,通过从知识图谱中提取关联规则来获得知识,能够精确识别出用户粒度级别的个性化敏感位置。
(3)基于以上提出的敏感位置识别方法,结合局部抑制方法提出了一种自适应匿名化方法,针对精确识别出来的敏感位置进行了隐私保护。本文从隐私安全性和信息损失两个方面对性能进行了理论分析,证明了本文提出的方法能够为发布出来的轨迹数据提供有效的隐私保护并能提高发布的轨迹数据的效用性。
(4)本文在常用数据集Oldenburg和Movielens上针对以上方法进行了实验测试,并从平均误差率(Average error rate)、标准偏差(Standard drviation)和F-measure这三个方面进行了性能评估。实验结果表明PSR&PPM_KG算法在数据效用性方面更具有优势。