论文部分内容阅读
随着社会的快速发展,科学技术的不断进步,人们所能接触到的信息也成几何级的增长,这些信息的不断积累就形成了我们熟知的“海量数据”。那么如何在海量数据中准确而快速地检索到用户需要的信息成为互联网信息时代所面临的机遇和挑战。本文分析了语义相关度计算和主题模型的国内外研究方法,发现在现有的研究中大都是简单的从统计学的角度来对查询语句和文档进行匹配而忽略了对文档语义知识的挖掘。因此,本文从这个方面对每篇文档的潜在语义进行深入挖掘,进而从文档的语义上来和查询语句进行匹配,使得检索到的结果更全面、更准确。在本文中,我们提出一种基于标签主题模型的文档排序方法。我们运用这个方法我们得到了三个很重要的矩阵:“文档—标签”概率分布矩阵、“标签—主题”概率分布矩阵和“主题—词”概率分布矩阵,获得了词对文档的语义贡献度,将词对文档的贡献度进行了量化分析,而不是简单的按照词频和反文档频率进行打分,并且标签主题模型有严密的数学推导证明,能从理论和实验上证明从标签和主题的角度研究信息检索技术的正确性。基于标签主题模型的文档排序方法充分考虑了文档的语义信息和词语歧义性等问题。本文提出了一种基于概念语义分析的文档排序方法,该方法首先利用标签主题模型对文档进行建模并经过矩阵运算得到“文档—词”矩阵,并将此矩阵按语义相关度进行映射得到词对文档贡献度。这个方法充分利用了查询语句和文档标签之间的关系,把查询语句和文档紧密的联系起来,一次映射使得与查询语句越相关的词在文档中的权重越大,而那些与查询语句不太相关的词将被过滤掉,从而提高文档排序的准确率。本文是在NTCIR-5中文信息检索语料上对本文提出的两个方法进行了相关的实验,并利用TREC评测工具对实验结果进行评测。实验结果表明,本文所提出的基于标签主题模型的文档排序方法和基于概念语义分析的文档排序方法能更好的提高检索排序的准确率,也间接地证明了本文从语义的角度研究信息检索方法的有效性。