论文部分内容阅读
信息获取过程中的不确定问题研究对于提高信息获取系统的性能和效率有很重要的意义,而且不确定问题与人们普遍关心的查准率问题有很大的关系,是未来构建和实现下一代互联网所必须研究的一个关键性问题,这也是作者研究信息获取中两类不确定问题的动机。本文以国家档案局科技攻关基金支持的“集成网络环境下电子文件归档系统的开发和应用研究” 项目(2001-x-04)为背景,在研究电子档案信息获取性能和效率问题时引出了对不确定问题研究和讨论。在信息获取过程中,主要关注两类不确定性:一类不确定性是指查询者所要表达的真实查询意图或者文档作者所要表达文档主题真正含义不能被系统所获知,这种不确定性被称为语义不确定性;另一类不确定性是指,在信息获取中,查询模型与文档模型之间相关性是模糊的、不确定的,这种不确定性被称为相关不确定性。本文在分析和处理两类不确定问题时使用到不同理论模型,这些模型包括:本体表达模型、案例表达模型、BCN(Bayesian Concept Network)表达模型、风险表达模型和交互计算模型。不同的理论模型在分析和处理两类不确定问题时各有其特点。在本文中,首先全面而简要地介绍研究的背景、目的、意义和目前研究概况,详细介绍与本研究相关的理论和主要研究方法,并在后面几章提出研究工作的主要观点和看法。在对信息获取中两类不确定问题进行研究的过程中,有关评价问题是一个很重要的问题,并贯穿论文的始终。针对信息获取中语义不确定性,研究和讨论M.Ehrig和A.Maedche提出的本体相关度计算策略及相应的文档评价方法,研究并提出三种相关策略应用于信息获取中的查全率、查准率和P-R评价问题,并进行理论分析比较。并由此得到结论,在查询者提供明确的查询概念条件下,运用本体表达方法对于减小信息获取中的语义不确定性,提高信息获取系统的性能和效率具有积极的意义。BCN表达模型是处理不确定问题又一种很好工具。BCN的网络结构可以看成是建立在文档空间之上知识的概率分布形态,寻找最优或接近最优的网络结构是解决或减小两类不确定问题的关键。在明确查询概念条件下,BCN表达模型与本体表达模<WP=5>型不同之处在于前者通过定量方法(概率)进行概念语义的延伸和传递,并通过BCN获得对文档的评价和描述。SBCN和ABCN是BCN表达模型的两种形式。作者以ABCN为基础,在特定用户兴趣空间上构建ABCN_UP网络,以表达特定用户兴趣空间中概念与概念,概念与文档概念之间的关联关系。ABCN_UP网络构建有助于减小互信息计算的搜索空间,可以更好地满足特定查询者主观对信息的需求。在研究和讨论两类不确定问题时,还有一个方面的研究不应忽视,即用户访问行为研究。用户访问行为研究与查询模型和文档模型之间的相关不确定之间有着必然的联系。作者从用户访问行为知识的有效表达角度,依据特定用户访问兴趣空间提出并构建Profile案例知识表达模型,同时给出Profile案例知识表达模型的检索方法。除此之外,风险表达模型也是一种很好的处理不确定问题的工具。风险表达模型对信息获取中的两类不确定问题进行综合考虑。作者在Lafferty等人提出的生成查询模型和文档模型基础上,结合赫尔姆霍茨机器学习理论提出通用生成查询模型和文档模型的构造方法及相应的形式化描述。提出并构造风险表达认知模型,并对模型中风险函数的可计算问题进行分析和讨论。本文在研究信息获取中两类不确定问题时,将思维交互认知活动看作减小语义不确定的重要途径。将IRS视作多智能体系统,在多智能体系统环境下,从思维认知层次研究和讨论不确定查询目标下的BDI解释交互模型。最后给出全文的总结及今后研究工作的展望。