基于语义分析的文档排序方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:mistbaby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的快速发展,科学技术的不断进步,人们所能接触到的信息也成几何级的增长,这些信息的不断积累就形成了我们熟知的“海量数据”。那么如何在海量数据中准确而快速地检索到用户需要的信息成为互联网信息时代所面临的机遇和挑战。本文分析了语义相关度计算和主题模型的国内外研究方法,发现在现有的研究中大都是简单的从统计学的角度来对查询语句和文档进行匹配而忽略了对文档语义知识的挖掘。因此,本文从这个方面对每篇文档的潜在语义进行深入挖掘,进而从文档的语义上来和查询语句进行匹配,使得检索到的结果更全面、更准确。在本文中,我们提出一种基于标签主题模型的文档排序方法。我们运用这个方法我们得到了三个很重要的矩阵:“文档—标签”概率分布矩阵、“标签—主题”概率分布矩阵和“主题—词”概率分布矩阵,获得了词对文档的语义贡献度,将词对文档的贡献度进行了量化分析,而不是简单的按照词频和反文档频率进行打分,并且标签主题模型有严密的数学推导证明,能从理论和实验上证明从标签和主题的角度研究信息检索技术的正确性。基于标签主题模型的文档排序方法充分考虑了文档的语义信息和词语歧义性等问题。本文提出了一种基于概念语义分析的文档排序方法,该方法首先利用标签主题模型对文档进行建模并经过矩阵运算得到“文档—词”矩阵,并将此矩阵按语义相关度进行映射得到词对文档贡献度。这个方法充分利用了查询语句和文档标签之间的关系,把查询语句和文档紧密的联系起来,一次映射使得与查询语句越相关的词在文档中的权重越大,而那些与查询语句不太相关的词将被过滤掉,从而提高文档排序的准确率。本文是在NTCIR-5中文信息检索语料上对本文提出的两个方法进行了相关的实验,并利用TREC评测工具对实验结果进行评测。实验结果表明,本文所提出的基于标签主题模型的文档排序方法和基于概念语义分析的文档排序方法能更好的提高检索排序的准确率,也间接地证明了本文从语义的角度研究信息检索方法的有效性。
其他文献
作为未来组成骨干网的核心部分,波分复用(WDM)光网络的研究动态受到广泛的关注。虽然WDM网络可以通过波分复用技术极大地提高网络带宽,但是与其上所承载业务需求量的爆炸式增
文本的表征与文本间的语义相似度计算是自然语言处理领域里十分重要的基础性研究课题,它们直接影响着诸如文本自动分类、信息检索、机器翻译、问答系统等多个应用系统的效果
在一些机器学习任务中,收集训练样本的代价很大而资源是有限的,因此以有限的资源收集高质量的样本是至关重要的。通常情况下,随机抽取的样本被假设服从独立同分布。然而,主动
随着众核处理器微结构技术的发展,片上集成的计算和存储资源越来越多,处理器结构越来越复杂。海量的片上资源和多样化的硬件结构使得高性能计算应用在众核处理器上并行优化的
随着科技的进步和居住环境的改善,人们更加重视家居环境的舒适度和安全性。随时随地的监控家居环境和及时快捷的发现家居安全问题,成为了人们的迫切需求。传统家居监测报警系统
随着嵌入式和计算机网络技术的发展,资源共享、数据交互和相互协作是嵌入式系统日益增长的需求。作为专用的计算机系统,嵌入式系统实现特定的应用功能,软硬件资源严格受限,信息相
无线传感器网络被广泛应用在各种领域,但由于资源受限的运行环境、动态的拓扑结构以及底层硬件的差异,导致无线传感器网络应用的开发非常困难。为了改善这一问题,考虑将中间
随着互联网的发展,尤其移动互联网的发展,Web用户快速增长。但因网络带宽和服务器的数量增长相对滞后,造成了用户使用互联网服务的时间延迟。由于硬件投入的成本较大,缓存系统因
运动目标跟踪就是对视频图像序列中的运动目标进行检测—识别—跟踪的过程。运动目标跟踪的主要目标就是从视频序列中找到需要跟踪的目标的位置并进行相关的后续处理。运动目
经过近十几年的发展,无线网络的吞吐量越来越高,基本能够满足人们日常工作和生活的需求。然而,电池技术的发展相对落后,无法满足当前人们对无线终端续航能力的要求,因此,越来