【摘 要】
:
互联网中存在着大量内容重复的网页。如何对大规模网页文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。高效的拷贝检测算法有非常广泛的应用,诸如搜索结果
论文部分内容阅读
互联网中存在着大量内容重复的网页。如何对大规模网页文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。高效的拷贝检测算法有非常广泛的应用,诸如搜索结果去重,知识产权保护以及网页文本聚类等。近年来随着网页文档集规模的逐渐增大,传统的单机拷贝检测算法已经不能处理日益增大的网页文档集,需要通过分布式计算框架(例如,Map-Reduce)来处理。在分布式环境下,进行大规模文本的拷贝检测,必须要首先考虑三个问题:一、如何对数据进行分割;二、如何减少计算节点间通信量;三、如何均衡各个节点的负载。以往的研究没有充分考虑这三个方面的问题,影响了算法的性能。本文着重研究了这三个问题,提出了两种分布式环境下高性能的文本拷贝检测算法。通常的拷贝检测算法都需要借助倒排索引。因此良好的索引结构对于算法性能至关重要。本文首先介绍了一种分布式环境下有效的索引分割方式,按文档切分的索引(Doc-Split Index, DSI)。在DS1索引中,每一个索引分块是对文档集的一个子集建立完整的索引。因此,在每一个计算节点上只需要一个索引分块就可以完成对该子集的拷贝检测,减少了计算节点间的通讯量,同时也使得各节点上的负载更加均衡。在索引结构研究的基础上,本文接着提出了两种分布式拷贝检测算法PQ onDSI以及PCP on DSI。这两种算法使用了DSI索引,可以很好的解决分布式环境下,如何分割数据,减少节点间通信以及均衡各个节点负载的问题。此外,这两种算法都是基于Map-Reduce框架,具有良好的并发性和可扩展性。在实验部分,本文首先通过人工标注的语料集对算法的参数进行了确定,选择了确保精度性能最优的参数。随后,在WT10G语料库上,本文将上述两种分布式拷贝检测算法(PQ on DSI、PCP on DSI)与之前研究者提出的两种算法(PQ、 PCP),进行了性能对比。实验表明,本文提出的两种算法的性能要远远超过PQ以及PCP算法。
其他文献
医学图像配准技术是当代医学图像处理技术的一个重要方面,通过将不同模态的医学图像有机地结合起来,可以为医生提供更加丰富的诊断信息。基于互信息的医学图像配准方法得到了广
近些年来,能源问题越来越趋于紧张,如果可以充分的利用自然光,对节约能源将起到十分重要的意义。而天空亮度分布正是利用自然光的一个非常重要的因素。本文将在国内外对天空亮度
近年来,随着计算机技术、网络技术的飞速发展,对数据和信息以电子格式存储发生了急剧地增长,这些数据毫无疑问是有价值的资源。然而随着信息量的不断扩大和对识别精度要求的逐步
网络协议识别是网络管理、网络安全、网络测量等领域的重要基础,随着互联网迅速普及,新的网络应用层出不穷,越来越多的私有网络接入互联网,大大增加了网络流量的复杂性,在这种环境
随着Internet的迅猛发展与普及,人们对Internet上所提供的信息类型不再局限于文本和图片,而是更加青睐于流媒体信息。然而由于运行平台、开发工具以及数据格式的差异性,造成了流
互联网和多媒体处理技术的迅速发展,使得多媒体等数字作品的版权保护显得日益重要。在音频版权保护研究领域,一种被广泛研究的技术是数字音频水印技术。在本文中,为了使水印技术
在自然界中,有很多同步现象,同样,神经网络也有同步现象存在。神经网络跟人工智能等众多应用领域结合起来,已成为潜力巨大的研究方向。在两个神经网络同步的过程中,初始状态的权值
近几年来,随着移动设备的迅速发展,越来越多的用户使用移动设备获取数据。移动用户可以使用手机、PDA、平板电脑通过无线技术(例如WiFi等)下载感兴趣的数据。这些数据有股票
分数阶和复数阶混沌动力学系统有着比整数阶系统具有更为丰富、复杂的动力学特性,同时还具有整数阶一样的随机性和不可预测性增加等优点。因此,近年来基于分数阶和复数阶微积分动力学系统的研究取得了不少的理论和实践成果。分数阶和复数阶混沌电路系统及其控制与同步、混沌保密通信等具有广阔的应用前景而受到人们的广泛关注。本文以简单的非自治耗散电路系统为研究对象,分析了分数阶和复数阶简单自治耗散系统的各种动力学行为,
由于生物医学文献不断增加,生物医学文本挖掘领域的相关研究逐渐活跃开来。生物医学文本挖掘的意义不仅在于生物信息的管理上,更重要的是在于生物文献中的知识发现和利用,从而增