一种基于单词移动距离的文档查询方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:machao4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档相似性度量是信息检索领域最重要的研究方向之一。单词移动距离(Word Movers Distance,WMD)是最近提出的一种能够有效衡量文档相似性的度量方式,其融合了基于神经网络的Word2Vec模型词向量表达出的单词语义信息,并依据推土机距离(Earth Movers Distance,EMD)计算两篇不同文档之间的距离。然而,单词移动距离存在两个缺点,第一点是它采用不够精确的词频来作为单词的权重,第二点是EMD的计算复杂性较高,EMD度量下的查询效率通常很低,当前最新的查询方法难以扩展到单词移动距离。这两方面的因素使得单词移动距离度量方式在大规模数据量下的文档分类、文档检索等任务上的应用存在效率和效果两方面的问题。  为了提高分类效果的准确性,本文对单词移动距离进行了一定程度的改进。本文考虑到单词对于文档的重要性而采用TF-IDF评分作为单词的权重,进而得到基于TF-IDF的单词移动距离(TI-WMD)。  为了提高单词移动距离度量下的文档查询效率,本文提出了一种近似的层次化查询方法。首先,依据文档的单词质心向量将每一篇文档表示成特征点的形式,并采用局部敏感哈希的方法为文档集合构建哈希索引;在查询过程中,文档需要被表示成单词质心向量和文档标签两种形式,依据单词质心向量与多探寻局部敏感哈希查询获得对应哈希桶中的候选文档集合,接着依据文档标签与过滤-细化框架在候选文档集合中获取TI-WMD度量下的k近邻。  本文在Reuters-21578,20-Newsgroups两个文档数据集上对TI-WMD的有效性,层次化查询的性能进行了全面的验证,并将它们与WMD和WMD度量下的PrefetchPrune方法进行对比分析,从而论证了层次化查询在效率和准确性上的优势。
其他文献
当今,无线上网已成为网络应用的一个热门讨论课题,利用各种无线终端设备,结合先进的无线连通技术和流行的中间件技术,构建各种实际应用系统形成了软件研发的一个重要方面。 论
在分布式数据库系统中,数据复制作为维护各个局部数据库间数据一致性的方法,扮演了极其重要的角色.构成分布式数据库系统的各个局部数据库可能分布在Intemet上,并且这些局部
高光谱图像是非传统图像的重要组成部分,因其无损伤性,超分辨率,高精准性,逐步成为各个领域的研究热点。高光谱图像的研究涉及到高光谱图像分类,高光谱图像解混及高光谱图像切割等
MANET(移动临时网络)是由一组带有无线收发装置的移动节点组成的一个多跳、临时的自治系统.该文分析了MANET的特点及其与其它类似网络的区别,讨论了它的应用领域,阐述了MANET
数据挖掘是近年来企业用以分析大型数据集的核心技术,是知识发现过程中的关键步骤,是数据库技术的进一步扩展。数据挖掘的效率问题一直都是制约数据挖掘技术发展的瓶颈。并行计
基于图象的图形绘制技术克服了传统的基于几何多边形的图形绘制技术的三维建模复杂、真实感不强、场景复杂时难以实时刷新等问题,使三维场景的建立变得容易,使复杂的虚拟现实系
学位
近年来,专家系统技术已广泛的应用于我国的农业生产中,利用它指导农业生产,对于高产、优质、高效和可持续发展农业具有显著的应用效果。组件化技术的发展和应用,使得软件重用得到
该文从数据融合的角度引入了网络安全态势评估的概念,认为网络安全评估的目的是获得更精确的安全威胁行为以及得到更全面、及时的网络目前安全状态和威胁估计,评估过程涉及到
全景视频作为一种日趋流行的视频展现形式,是在全景图像基础上发展而来。与传统播放器只能展示平面播放效果相比,全景视频可以通过形成多帧全景图像并包含音频信息来展示周边36