安全的文档相似性计算方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qazzaq123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化时代,文本数据作为数字信息的重要组成部分,在数字办公、电子政务、知识传播和网上娱乐等领域,发挥着越来越重要的作用。面对日常产生的大量文本数据,计算机系统在这些文本数据的存储和利用等方面面临巨大的挑战,例如:文档管理系统设计、知识产权保护、剽窃检测和知识共享等。针对这些问题,可以使用文档相似性计算帮助解决,例如可以将文档相似性计算应用到文档管理系统实现文档归档与查询,使用文档相似性计算检测知识产权侵犯或论文剽窃等。  但传统的文档相似性计算方法,都是在文档数据集中于一方,或集中于多方但文档内容互相可见的假设下进行的,并未考虑在计算的过程中保护文档内容的安全性,因此并不适用分布于多方的敏感文档数据间的相似性计算。基于此,本文将研究在不借助安全第三方的前提下,两方之间进行文档相似性计算,最终除了文档间的相似性计算结果,两方均不会将自己文档的私有内容暴露给对方。传统的文档相似性计算方法主要包括基于指纹集合和基于词频向量两类,因此本文的研究内容主要包括以下三个方面:  (1)基于集合的安全的文档相似性计算方法:已有的基于集合的安全的文档相似性计算方法在设计时,大多关注怎样在两个文档间进行相似性计算,将这些方法直接应用到两个规模为n的文档集进行两两文档间的相似度计算时,可能会导致O(n2)的计算复杂度。因此,基于MinHash文档指纹集合提取算法和不经意多来源混淆布隆过滤器交集计算协议,本文提出了一种新的安全的文档相似性计算方法,并通过理论和实验分析验证了该方法进行文档集间的相似度计算时的复杂度仅与n呈线性关系,比已有的工作更为高效。  (2)基于向量的安全的文档相似性计算方法:已有的基于向量的安全的文档相似性计算方法,一般采用向量空间模型来表示文档,但向量空间模型在衡量文档相似性时存在缺陷,并且向量的高维度也会导致计算的高复杂度。本文采用潜层语义分析模型,并借助同态加密技术,设计了一种新的基于向量的安全的文档相似性计算方法,实验结果显示该方法提高了检测的准确率与效率。  (3)针对真实的应用场景下可能面对的大规模文档集,本文使用基于集合的安全的文档相似性计算方法,借助MapReduce计算模型设计并实现了一套大规模文档环境下安全的相似性计算系统。
其他文献
本文在现有的研究基础上针对某些重要和具体的问题进行了改进研究,如网格证书体系、网格授权机制以及网格环境中的信任模型等方面,并给出了较为详细的改进建议或实施策略。本文
本文解决了绣花缝针轨迹的两个问题:缝制区域(节点)的划分和节点的遍历问题。本文运用几何计算和图论理论提出了一个绣花缝针轨迹自动生成算法:先对轮廓走向进行定义,通过轮廓铅垂
在知识经济时代,取得竞争优势的关键在于对信息变化的准确把握,以及利用这些信息迅速制定科学决策的过程.知识管理能够最大限度地积蓄智力资源,为发展知识经济提供有力的支撑
伴随SDH传送网的迅猛发展,SDH网络管理也成为研究热点.多厂商传送网环境中网管接口的多样性带来的网管系统间的互操作困难,是建设综合网管系统时需要解决的首要问题.文章分析
乌干达Kampala市的一家名为Hortex大型贸易出口公司目前使用的计算机销售管理系统是基于客户端直接到服务器的两层应用结构,随着市场竞争和业务的不断扩大和因特网的广泛应用,
听音辨鼓这个反问题发展至今已经半个世纪,许多数学和物理学家都做出了很多有益的贡献,这个挑战性问题由美国数学家M.Kac1966年正式提出,用数学语言描述为欧几里得空间中,是否可
众所周知,计算机单机技术发展的有限性和科学工程计算需求的无限性之间的矛盾决定了计算机发展必然走上多机并行的道路.这就导致了并行计算将成为未来主流计算模式,并行处理
虚拟人运动早都已经成为仿真系统、科学实验、运动图片、通讯及游戏娱乐活动等方方面面中不可或缺的一部分,并且由于计算机硬件的发展,虚拟人运动必定在将来扮演着更加重要的
20世纪90年代以来,随着网络技术的发展,网上交易越来越普遍,电子商务在全球蓬勃发展,电子商务在提供机遇和便利的同时,也面临安全挑战。安全电子支付成为电子商务的核心环节,国际上
电子政务是公共行政管理改革和衡量国家竞争力水平的显著标志之一.利用先进技术实现政府网上信息交换、信息发布、信息共享和信息服务,提高政府效率,为社会公众提供开放、便