论文部分内容阅读
信息化时代,文本数据作为数字信息的重要组成部分,在数字办公、电子政务、知识传播和网上娱乐等领域,发挥着越来越重要的作用。面对日常产生的大量文本数据,计算机系统在这些文本数据的存储和利用等方面面临巨大的挑战,例如:文档管理系统设计、知识产权保护、剽窃检测和知识共享等。针对这些问题,可以使用文档相似性计算帮助解决,例如可以将文档相似性计算应用到文档管理系统实现文档归档与查询,使用文档相似性计算检测知识产权侵犯或论文剽窃等。 但传统的文档相似性计算方法,都是在文档数据集中于一方,或集中于多方但文档内容互相可见的假设下进行的,并未考虑在计算的过程中保护文档内容的安全性,因此并不适用分布于多方的敏感文档数据间的相似性计算。基于此,本文将研究在不借助安全第三方的前提下,两方之间进行文档相似性计算,最终除了文档间的相似性计算结果,两方均不会将自己文档的私有内容暴露给对方。传统的文档相似性计算方法主要包括基于指纹集合和基于词频向量两类,因此本文的研究内容主要包括以下三个方面: (1)基于集合的安全的文档相似性计算方法:已有的基于集合的安全的文档相似性计算方法在设计时,大多关注怎样在两个文档间进行相似性计算,将这些方法直接应用到两个规模为n的文档集进行两两文档间的相似度计算时,可能会导致O(n2)的计算复杂度。因此,基于MinHash文档指纹集合提取算法和不经意多来源混淆布隆过滤器交集计算协议,本文提出了一种新的安全的文档相似性计算方法,并通过理论和实验分析验证了该方法进行文档集间的相似度计算时的复杂度仅与n呈线性关系,比已有的工作更为高效。 (2)基于向量的安全的文档相似性计算方法:已有的基于向量的安全的文档相似性计算方法,一般采用向量空间模型来表示文档,但向量空间模型在衡量文档相似性时存在缺陷,并且向量的高维度也会导致计算的高复杂度。本文采用潜层语义分析模型,并借助同态加密技术,设计了一种新的基于向量的安全的文档相似性计算方法,实验结果显示该方法提高了检测的准确率与效率。 (3)针对真实的应用场景下可能面对的大规模文档集,本文使用基于集合的安全的文档相似性计算方法,借助MapReduce计算模型设计并实现了一套大规模文档环境下安全的相似性计算系统。