基于语言模型的正负相关反馈文档自动识别技术的研究与实现

来源 :内蒙古大学 | 被引量 : 2次 | 上传用户:v80ak48
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网的飞速发展使得以电子形式存在的信息资源越来越多。对于繁多纷杂的信息资源通过人工筛选来获取所需的信息已是不可能的,信息检索可以帮助人们从浩瀚的信息资源中找到所需的信息。由于在自然语言理解上目前还未取得重大突破,大多数信息检索系统都是基于关键字或词的机械式的符号匹配的方式进行检索的。反馈技术能够对用户的查询进行重造,目的是使检索结果更好地满足用户的信息需求。相关反馈能够非常有效地提高检索性能,但需要用户判断哪些符合自己的意图,并将它们标识出来,在很多工R系统中的实现效率都不太高。伪相关反馈不需要用户的参与,系统默认自己检索结果的前N篇文档是相关文档,但是某些情况下这种假设是不成立的。本文旨在语言模型的框架下提出一种能够在无需用户参与的情况下,全自动的实现接近相关反馈效果的一种模型,我们称为FWN模型。信息检索系统的检索结果列表中,相关文档间的相似度普遍较高,不相关文档间的相似度较低,特征分布也相对松散。文档排名越靠前,文档是相关文档的可能性越高,故可对检索结果前N篇文档先进行聚类分析,去除一部分不相关的文档。然后应用相关反馈算法进行查询词的扩展和概率值的重新分配来增强反馈效果,最后用产生的新查询进行检索。为了验证FWN模型,本文在TREC测试集上进行了一系列的实验。实验的结果显示出这个模型的检索性能比原查询和伪相关反馈模型都有显著提升,证明了本模型是非常有效的。
其他文献
【正】 一电子计算机是二十世纪下半叶出现的一门新兴技术科学,随着现代社会生产力的迅速发展,电子计算技术也获得了长足的进展。从1946年美国费城出现了世界上第一台电子计
通过对当前园林经济新现象“大树进城”利弊的分析,探讨了市场机制下有效解决问题的办法和途径。分别从园林经济的商品、经营和管理方面阐述了城市园林生产的产品结构、经营
用晶体培养方法研究硒与光照射诱发的晶体脂质过氧化作用的关系。结果表明经光照射24~45h后晶体丙二醛(MDA)含量显著升高(P<0.05)。培养液中含适宜硒浓度(1.15μmol/L)可使光照射晶体的丙二醛含量减少,并在一
一起大型发射试验中的急性中毒事故,对30例四氧化二氮及偏二甲基肼混合中毒病例临床资料进行分析,根据接触毒物剂量不同的两组人员的临床表现比较结果,显示出剂量一效应关系。接触
在水和甲醇的混合溶剂中,经邻菲绕啉、丁二酸钠和CuCl2.2h2o反应合成得到标题配合物,[Cu2(phen)2(oh)Cl(C4h4o4)].8h2o.单晶X-射线衍射分析表明,晶体属单斜晶系,p21(no.4)空
将Bayes统计方法应用于J—M模型参数的区间估计研究.首先给出J-M模型参数的基于杰弗莱原则的先验分布,在此基础上给出模型参数的Bayes后验分布密度,由此得出模型参数的Bayes点估
为了提高ANSYS求解二维无界静电场的精确度,提出映射法.它是采用复指数函数,将无穷远边界线映射成一点,从而将一条边界线敞开的矩形边界的二维无界静电场,映射到其对应的二维有界
本文从双师同堂教学模式相关文献分析和开展中的经验反思出发,对于双师同堂教学模式的特征、过程设计、成功关键因素和效果评估进行了讨论。从讨论的结果来看,双师同堂教学模
儒家思想是中国思想文化历史上的高峰,在经历了上千年的历史文化的融合和发展,逐渐形成了独特的中国传统理想人格模式。本文分析了儒家理想人格极其现代价值,以此来完善中华
在人类的实践生活中,随处存在着各种的不平等,而这种不平等产生的原因,按照马克思历史唯物主义理论看来,是由于生产力的提高,生产资料的剩余,而导致私有制的产生,从而产生了