论文部分内容阅读
信息和网络技术的高速发展使得大数据成为当前学术界和工业界的研究热点,数据爆炸式的增长给人类社会带来了前所未有的机遇与挑战。一方面,基于大数据的处理、分析和共享等技术可以提高企业经济和社会效益。另一方面,隐私已经成为大数据应用领域亟待解决的重要问题。一旦恶意分子获得了个人或者团体不愿他人知道的敏感信息,他们可以利用这些信息进行恶意欺诈等行为,从而给个人或者团体带来许多麻烦或经济损失。而大数据具有数据量大、数据类型繁多、数据生成速度快和价值大密度低等特点,加之个人和团体的隐私随着诸多因素动态变动的特性使得大数据时代的隐私保护更是难上加难。在大数据环境下,隐私保护技术面临着新的挑战:1)大数据环境下独有的隐私问题使得传统的被动式隐私保护技术束手无策,并且数据生成者并没有主动的参与隐私保护。大数据环境下,数据的爆炸式增长使得仅仅依靠数据收集者的隐私保护技术是不完整的。在数据攻击者通过某些方法直接窃取数据收集者的原始数据的情况下,这种被动式的隐私保护技术将无法生效。2)大数据的多样性带来的多源数据融合使得隐私泄露风险大大增加。由于人们的数据的广泛分布,使得多个数据集都有可能存在某个个体或者与他相关联的个体的数据,这使得数据集之间存在着一定的关联性。在这种情况下,融合之后的数据集的隐私风险相比于单个数据集的隐私风险将增加。3)缺乏针对大数据隐私泄露造成的巨大损失而进行的妥善的事后补救措施。尽管数据收集者和生成者都在采取各种手段来避免隐私泄露,可是隐私泄露事件仍然时有发生。针对大数据环境下隐私保护面临的上述挑战,本文对大数据环境下隐私保护关键技术展开了针对性的研究工作,具体而言,本文的主要工作包括以下几个方面:1)为实现大数据环境下整个生命周期内的隐私保护,本文提出了一种大数据环境下隐私保护框架。根据大数据的生命周期,该框架分为了三个主要部分:数据收集和应用阶段的隐私保护以及数据隐私泄露的补救措施。详细而言,在数据收集阶段,在某些特定的场景中,数据生成者在将数据上传给数据收集者之前,可以对数据进行一定的匿名处理。而本文则更进一步地讨论由多个数据生成者共同保护他们各自的隐私,从而降低隐私保护的代价。在数据应用阶段,则考虑在数据集是相互关联的情况下,每个数据收集者选择合适的隐私参数来最大化被匿名处理之后的数据效用。在数据隐私泄露发生的情况下,本文利用网络保险来作为一种隐私风险控制手段,来降低数据生成者和数据收集者的损失。2)在大数据收集阶段,某些特定的场景中,数据生成者可以在数据上传给数据收集者之前进行匿名处理。在基于位置服务中,本文提出了一种分布式κκ-anonymity方法,即每个数据生成者都可以发布κκ-1条虚假的轨迹来保护自身。与此同时,某个数据生成者的虚假轨迹也能保护与其相似的轨迹。因此,可以让同一个区域内的数据生成者来共同保护各自的隐私。在此基础之上,本文构造了一个基于拍卖的模型,在这个模型中,每个LBS用户,作为竞拍者,通报自己的隐私代价以及用于实现κκ-匿名化的虚拟轨迹,然后从中选择胜出者以及其他每个LBS用户需要付出的金钱。对于位置隐私保护,提出了一种代价共享机制,即执行虚假轨迹生成任务的LBS用户会接收到来自其他LBS用户的金钱补偿。与此同时,本文所提出的代价共享机制满足激励相容以及预算均衡。3)在大数据时代,大数据的多样性特征带来的多源数据融合使得隐私泄露风险将大大增加。详细而言,在大数据环境下,由于某个个体以及他的相互关联的个体和团体的数据分布广泛,数据集之间的关联性也大大增加,从而增加了数据集融合之后的隐私泄露风险。为了构造一个有多个参与者之间的发布各自数据集的博弈模型,本章分别评估了相互关联的数据集之间的隐私关系,匿名化处理之后的数据效用,以及隐私损失的估值。在博弈模型基础之上,本文分析了纯纳什均衡存在的充分条件。除此之外,本文还利用price of anarchy来评估纯纳什均衡的效率。4)在大数据环境下,即使数据收集者做了最充分的隐私保证,仍然有可能发生隐私泄露,从而造成非常巨大的损失。为了解决这种问题,本文提出了利用网络保险来减轻由于隐私泄露而造成的损失。本章首先基于网络保险理论,构造了一个数学模型来量化分析用户的行为偏好。与此同时,基于博弈理论来建模用户和保险公司在事后道德欺诈之间的博弈。其次,为了消除高度相关的隐私风险以及事前道德欺诈带来的负面效果,关键措施是制定有效的措施来刺激用户增加隐私保护程度。为了处理用户的不良行为,对于保险公司来说需要制定相应的措施。基于构造的博弈模型,我们首先推导出纳什均衡。其次,我们显示了一些有效的措施来刺激投保人做出好的行为。