基于图结构的信息检索算法研究与实现

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:sgaini1532
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的出现与普及,尤其是上世纪90年代互联网蓬勃兴起之后,人们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的社会,人们能从Internet获得数目惊人的信息。如何快捷准确地获取感兴趣的信息,就成为人们关注的主要问题。 信息检索的目的在于提供满足用户要求的内容,而传统的文本信息检索方法的基本思路为查询式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。但是由于自然语言的模糊性和多义性,这种通过词汇简单匹配检索出的结果并不是最优的。随着信息检索技术的不断发展,挖掘更加有效的信息对检索的结果进行优化成为一个研究热点。查询扩展和结果重排就是两种常用的利用附加信息进行检索结果优化的方法。但传统的查询扩展和结果重排方法都只是从与单个词或单个文档间的关系等来进行附加信息的考虑,而没有从概念或主题方面来进行考虑。 本文对基于图结构的信息检索算法进行了研究并实现了一个原型系统。 Markov网络是一种较好的表示知识关联的图形表示方法,可以从实例数据来训练获得,并且它的无向性能更好地解释信息检索中知识之间的关系,具有强大的学习功能和推导能力。通过对文档集的学习,词与词之间相关性、文档与文档之间的相关性被提取出来,从而构造出词子空间Markov网络及文档子空间Markov网络,把从Markov网络中挖掘出来的文档团加入到检索模型中。实验表明:我们的模型在很大程度上提高了检索效率。 此外,本文在文档和特征的关系的二部图基础上,提出了基于协同聚类的两阶段文本聚类方法,实验结果表明,我们提出的算法对于文本聚类特征选择及文本聚类结果都取得了不错的效果。 本文的创新点在于: 1.把从Markov网络中提取出的文档团加入到检索模型中。从文档集中提取的文档团描述着一个共同的主题,通过提取出的文档团,修正检索过程中每篇文档的检索得分以实现文档重排,通过实验验证和分析了基于团模型的信息检索模型的性能,并与一些常用的检索模型算法及已有的Markov网络信息检索模型的性能做了比较。本文提出的模型表现比较优异,在很大程度上提高了检索效率。 2.提出了基于协同聚类的两阶段文本聚类方法。该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系,然后利用此关系来相互调整彼此的聚类结果;聚类分两阶段进行,第一阶段对训练集进行协同聚类,第二阶段利用第一阶段的聚类结果进行有监督的特征选择,然后以所选特征对测试集进行协同聚类。实验结果表明,利用特征与主题之间的语义关联关系能有效地提高聚类性能。 3.将本文提出的基于团模型的文档重排算法及基于协同聚类的两阶段文本聚类方法应用于江西省科技攻关项目(20062184):基于分层的个性化推荐系统的内容推荐模块中,使本文提出的算法在真实系统中得到应用。
其他文献
空间数据挖掘是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其它一些隐含在空间数据中的普遍的数据特征。聚类分析是数据挖掘中的一种非
脑电信号的分类是脑机接口中的关键问题。因为脑电的个体差异较大、信号幅度微弱,又是非平稳的时变信号,所以对其进行特异性分析总结是比较复杂的工作。提高脑电信号分类的准确
网络安全在现代社会中非常重要。近些年来,防火墙成为了网络安全研究中的一个热点。通常,防火墙也是企业级用户的首选网络安全工具。随着越来越多的个人用户接触互联网,个人计算
二十世纪五十年代以来,语音识别的技术发展迅速。作为一门交叉学科,语音识别己经形成了完整的理论体系,基于PC平台的语音识别系统的研究也在技术上获得了一些成功。尽管目前
随着校园网的大力建设,无纸化考试在各高职院校中得到了广泛的应用,但同时,校园网不可避免地存在安全隐患,因此研究如何保证考试的安全性与严肃性有着极其重要的意义。而身份
本文根据对百万结点油藏模型进行交互式图形化处理的需要,研究了实现基于GDI的海量数据快速装载和显示的方法。实现的技术主要包括海量数据的分块技术、影像金字塔生成技术、
防火墙作为一种网络或系统之间强制实行访问控制的机制,是确保网络安全的重要手段。防火墙可以是非常简单的过滤器,也可以是精心配置的网关,但它们的原理是一样的,都是监测并
本文研究了交流电动机的动态参数分析与故障诊断系统。本系统包括硬件系统和软件系统两部分,以目前使用最为广泛的一般用途鼠笼式中小型三相异步电动机为数据信号源,在系统中对
并行计算系统中资源的负载平衡是关系到并行效果的一个极为关键的因素,如何能充分利用并行计算系统中的资源更好的进行并行计算的问题,将参与机能统一的调度和管理起来,使任务的
投资监控系统是一个涉及经济利害的金融系统,所以系统对于用户的权限管理有着相当严格的要求,同时,由于系统功能的繁杂和用户群的庞大,对系统的权限管理以及日后的权限维护提