信息获取中的两类不确定问题研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lambkin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息获取过程中的不确定问题研究对于提高信息获取系统的性能和效率有很重要的意义,而且不确定问题与人们普遍关心的查准率问题有很大的关系,是未来构建和实现下一代互联网所必须研究的一个关键性问题,这也是作者研究信息获取中两类不确定问题的动机。本文以国家档案局科技攻关基金支持的“集成网络环境下电子文件归档系统的开发和应用研究” 项目(2001-x-04)为背景,在研究电子档案信息获取性能和效率问题时引出了对不确定问题研究和讨论。在信息获取过程中,主要关注两类不确定性:一类不确定性是指查询者所要表达的真实查询意图或者文档作者所要表达文档主题真正含义不能被系统所获知,这种不确定性被称为语义不确定性;另一类不确定性是指,在信息获取中,查询模型与文档模型之间相关性是模糊的、不确定的,这种不确定性被称为相关不确定性。本文在分析和处理两类不确定问题时使用到不同理论模型,这些模型包括:本体表达模型、案例表达模型、BCN(Bayesian Concept Network)表达模型、风险表达模型和交互计算模型。不同的理论模型在分析和处理两类不确定问题时各有其特点。在本文中,首先全面而简要地介绍研究的背景、目的、意义和目前研究概况,详细介绍与本研究相关的理论和主要研究方法,并在后面几章提出研究工作的主要观点和看法。在对信息获取中两类不确定问题进行研究的过程中,有关评价问题是一个很重要的问题,并贯穿论文的始终。针对信息获取中语义不确定性,研究和讨论M.Ehrig和A.Maedche提出的本体相关度计算策略及相应的文档评价方法,研究并提出三种相关策略应用于信息获取中的查全率、查准率和P-R评价问题,并进行理论分析比较。并由此得到结论,在查询者提供明确的查询概念条件下,运用本体表达方法对于减小信息获取中的语义不确定性,提高信息获取系统的性能和效率具有积极的意义。BCN表达模型是处理不确定问题又一种很好工具。BCN的网络结构可以看成是建立在文档空间之上知识的概率分布形态,寻找最优或接近最优的网络结构是解决或减小两类不确定问题的关键。在明确查询概念条件下,BCN表达模型与本体表达模<WP=5>型不同之处在于前者通过定量方法(概率)进行概念语义的延伸和传递,并通过BCN获得对文档的评价和描述。SBCN和ABCN是BCN表达模型的两种形式。作者以ABCN为基础,在特定用户兴趣空间上构建ABCN_UP网络,以表达特定用户兴趣空间中概念与概念,概念与文档概念之间的关联关系。ABCN_UP网络构建有助于减小互信息计算的搜索空间,可以更好地满足特定查询者主观对信息的需求。在研究和讨论两类不确定问题时,还有一个方面的研究不应忽视,即用户访问行为研究。用户访问行为研究与查询模型和文档模型之间的相关不确定之间有着必然的联系。作者从用户访问行为知识的有效表达角度,依据特定用户访问兴趣空间提出并构建Profile案例知识表达模型,同时给出Profile案例知识表达模型的检索方法。除此之外,风险表达模型也是一种很好的处理不确定问题的工具。风险表达模型对信息获取中的两类不确定问题进行综合考虑。作者在Lafferty等人提出的生成查询模型和文档模型基础上,结合赫尔姆霍茨机器学习理论提出通用生成查询模型和文档模型的构造方法及相应的形式化描述。提出并构造风险表达认知模型,并对模型中风险函数的可计算问题进行分析和讨论。本文在研究信息获取中两类不确定问题时,将思维交互认知活动看作减小语义不确定的重要途径。将IRS视作多智能体系统,在多智能体系统环境下,从思维认知层次研究和讨论不确定查询目标下的BDI解释交互模型。最后给出全文的总结及今后研究工作的展望。
其他文献
抗战的严峻态势促使战时文艺工作者抛却成见,广泛汲取一切有益因子,最大程度地进行抗日宣传。于是通俗文艺被纳入“抗战”叙事的洪流,并创生出崭新的“抗战通俗”类“复合模式”
本课题研究的德氮吡格(Tetrazanbigen,TNBG)是自主创新设计合成的含2-苯基萘三环共平面的氮杂甾烷类化合物。经体内、外实验证明,TNBG具有良好的抗肿瘤作用,能显著延长荷瘤动物
斑点叉尾鲴含肉率高、营养丰富、味道鲜美,深受消费者欢迎,在市场上颇具竞争力,尤其是无肌间刺,适宜加工,为出口欧美国家的首选水产品。为很好地推进大水面网箱养殖,笔者于2006年在
分别采用国家标准《GB/T 32151.9-2015温室气体排放核算与报告要求第9部分:陶瓷生产企业》与基于生命周期多种温室气体的核算方法对我国典型建筑陶瓷生产的碳排放进行定量化
当下,随着地方社会各项事业的蓬勃发展,政府专项资金所涉及的领域也日益广泛。如何在最大程度上发挥政府专项资金的使用效果,不仅是国家规划的重点也是社会关注的焦点。党的
目的:探讨Leep刀宫颈锥切术治疗宫颈上皮内瘤变的临床疗效。方法:分析收治的90例宫颈上皮内瘤变患者临床资料,依据治疗措施不同进行分组,对照组(宫颈冷刀锥切术组)45例和观察
以经典传热方程为理论基础,结合COMSOL三维热固耦合方法与实测数据,对混凝土受热膨胀产生裂缝进行模拟分析及计算。得到混凝土内部温度、最大主应力和最高温度随外界温度变化的
为更好把握水务PPP项目发展趋势和特点,文章对财政部第三批PPP示范项目进行统计分析。与第二批项目特点对比,水务项目一级行业细化为水利建设、生态建设和环境保护、市政工程
目的:探究血清克隆性免疫球蛋白检查在慢性淋巴细胞白血病患者中的预后价值.方法:回顾性分析56例初步诊断为慢性淋巴细胞白血病患者,采用全自动电泳仪以及扫描仪观察并记录患者