【摘 要】
:
文本近似查重是判断一篇文档是否和指定文本集中的某篇文档内容近似的技术.它能应用于大数据开发利用所涉及的多个场景中,例如采集查重、搜索结果过滤、事件跟踪,以及论文抄
【机 构】
:
中国国防科技信息中心北京市190信箱,北京100142
【出 处】
:
第二十七届全国计算机信息管理学术研讨会
论文部分内容阅读
文本近似查重是判断一篇文档是否和指定文本集中的某篇文档内容近似的技术.它能应用于大数据开发利用所涉及的多个场景中,例如采集查重、搜索结果过滤、事件跟踪,以及论文抄袭检查、垃圾邮件过滤等,是文本处理领域研究的热点,近年来不断有新的近似查重算法提出,例如SimHash、MinHash、Winnowing.这些算法在不同的应用场景表现各有不同.本文旨在研究一个近似查重算法的框架,将多种算法整合其中.统一的框架一方面可以简化查重系统的开发和使用,满足大数据中异构数据对不同查重算法的需求;另一方面可以厘清不同查重算法的谱系,通过交叉组合进行算法的创新.
其他文献
Breast cancer stem cells (BCSCs),which can fully recapitulate the tumor origin and are often resistant to chemotherapy and radiotherapy,are currently consid
目的:本研究旨在利用乳糖与去唾液酸糖蛋白受体(asialoglycoproteinreceptor,ASGPR)特异性识别的特点,结合介孔硅胶纳米粒(mesoporous silica nanoparticles,MSNs)优良的
Lipid matrix particles may have great potentials in oral drug delivery,especially for biopharmaceuticals by protecting them from enzymatic degradations in t
Objective: This study was mainly focused on developing a dual-ligand liposomal delivery system to enhance both targeting specificity and cellular uptake.Met
随着特种纸在品种、功能、质量等方面发展的新需求,有力地促进了用于特种纸湿法抄造的斜网成形器的开发创新.本文就多层斜网成形器重点技术问题进行交流探讨.介绍了斜网成形
利用废纸制浆成为造纸工业可持续发展之路的重要举措之一。文章介绍了一种粗选压力筛,改善了以废纸为原料的制浆造纸系统中的原料、能源浪费问题。此高效节能粗选压力筛通过增
特种纸在中国很大的发展前景.本文叙述了当今特种纸网毯行业面临的挑战,从而提出造纸网毯的应对策略——无交织基网压榨织物。以贴缸毛毯为应用案例进行说明,介绍了贴缸毛毯脱
两性PAM增强剂,主要功能是在造纸工业作为增干强剂提高纸张的强度,同时也具有提高滤水性能和助留效果等功能,是当前广泛应用的造纸化学品.本文主要介绍PAM结构高分枝化;引入新
标签可以用于Web资源的自动分类、信息检索、信息推荐等不同应用场合,用户可以根据自己的意愿给标注对象添加标签,而标签多采取自由标引方式,部分标签并不能有效地揭示资源的