基于统计语言的中文网页信息检索模型研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lm198505050056
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网飞速发展,信息呈指数增长,信息获取途径更为多样化,但是信息搜索却变得更为复杂了。人们迫切需要高层次的信息处理技术来处理海量信息,快速检索到所需信息,从而帮助更好的进行决策和研究。然而,信息处理技术的普及与广泛应用很大程度上得益于自然语言处理技术的发展,为了有效解决信息检索问题,对信息检索在文档内容表示、检索模型、匹配策略以及排序算法等方面的研究逐渐增多。其中,对检索模型的研究仍然是信息检索研究的一个热点,各种检索模型和方法相继出现,如:布尔模型、向量空间模型、概率模型。尤其是近年来提出统计语言模型,将自然语言与统计学相结合来研究信息检索,借助强大的数学基底,成为信息检索中占据统治地位的检索模型,并取得了大量研究成果。   对中文网页海量数据进行研究,并将中文分词组件与lemur结合构建适宜于中文的信息检索系统方面的研究相对缺乏。本文在大规模中文网页语料库CWT200G的基础上,参考TREC和SWEM信息检索标准流程,以Lemur为基准工作平台,将其与中科院分词组件一汉语词法分析系统ICTCLAS相结合,形成一个可供实验的简单的信息检索系统。首先,阐述了本文的理论基础,介绍了基于统计语言方法的中文网页信息检索模型研究中所要研究的重点问题:统计语言模型、数据平滑、中文分词和中文文本索引等。然后,对信息检索评测的中文网页语料库和实验所需平台及系统进行简单介绍,对数据如何处理做了详细分析。最后,通过实验数据对比分析向量空间模型、概率模型等传统信息检索模型与统计语言模型对中文网页语料库进行主题检索时性能优劣;同时,在统计语言模型进行主题检索实验的时候,分别对Simplified Jelinek-Mereer平滑方法、Dirichlet Prior平滑方法和AbsoluteDiscouting平滑方法进行实验,并对比这三种平滑方法在信息检索中的性能。
其他文献
随着全球化进程的不断加快以及知识经济时代的到来,竞争情报三大网络之一的人际情报网络(Human Intelligence Network,简称为HIN)与知识管理相互融合的研究成为研究的热点。研
德育工作是义务教育阶段的必备工作之一,只有进行正确的道德教育、科学的德行引导,小学生才能树立正确的人生观、价值观,也才能走向正确的成长之路.然而,德育工作的开展需要
[目的/意义]与众多基于未被引现象的统计分析不同,本文利用演绎分析方法探索论文未被引的产生机制.[方法/过程]将未被引现象置于科学交流的宏大背景下,提出论文未被引的竞争-
[目的/意义]从内容差异来探索论文未被引规律,不仅是论文未被引现象研究的重要内容,也有利于扩展基于内容的引文分析方法范畴.[方法/过程]以CSSCI作为来源数据库,以图书馆情
在全球应对气候变化背景下,碳交易应运而生。我国碳排放权卖方企业在国内外竞争中处于劣势地位,原因之一是我国碳排放权卖方企业存在竞争情报搜集能力不强、搜集效率不高、搜集
现如今,随着素质教育不断深入和发展,学校也越来越重视对学生综合素质的培养.为了让学生养成独立自主学习的习惯,需要提高学生的学习兴趣,本文就如何在小学数学教学中,培养学
政府门户网站信息公开目录建设,是我国政府信息公开工作和电子政务工作的重要内容。它既是政府对网上公开的政府信息进行组织并向社会揭示的方式,也是用户在政府门户网站上找到
随着Web2.0理念的深入,去中心化的UGC(用户生成内容)方式催生大量文本、图片、视频等信息,“信息过载”进一步加重。当前,生活节奏越来越快,移动阅读广泛流行,人们更倾向于在碎片
近年来,随着社会多元化发展,治安、刑事、聚众恐袭等重大案件明显增多,全社会对安防科技信息化处理能力提出了更高的要求.基于5G技术的智能安检云平台有机融合了5G、云计算、
非侵入式负载监测旨在根据家庭总用电量估算单个电器的耗电量.基于竞争聚集和神经网络的非侵入式负载监测方法在竞争聚集部分融合了层次聚类和分块聚类的优点,并从聚集的负载