个性化的智能中文信息检索系统的研究与实现

来源 :西安交通大学 | 被引量 : 0次 | 上传用户:Java8657
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于中文的特点,使得许多应用于英文的信息获取技术并不能够直接应用到中文IR中.正是在这样的背景下,我们对智能的中文信息获取技术进行的研究.该文首先介绍了传统的IR系统发展情况,通过对英文和中文IR技术的主要特点进行比较,阐明了中文IR的主要技术和当前中文IR系统的主要问题所在.首先通过对几种索引方法的详细比较,提出了一种新的字词混合索引模型-基于最大匹配算法的N元语模型.接着,文章改进了一种HTML文档的结构化方法,然后介绍了WEB数据挖掘技术和利用数据挖掘技术来发现文档间的关系,实现文档的分类,从而提高查询精确度的方法.再对个性化的信息获取进行了探讨,利用查询扩展等技术,提高了查询质量和目的性.最后,作者针对中文IR系统的发展方向提出了自己的看法,并具体提出了一个分布式搜索引擎的体系结构和一种元搜索引擎的体系结构,为以后的研究打下基础.该文为以后进一步研究中文IR技术和搜索引擎技术打下了坚实的基础.文章中部分内容已经由作者整理,并刊登在国内的核心期刊.
其他文献
彩色图象分割是智能交通系统工程中视频检测技术的重要组成部分,本论文为图象分割技术的应用探索切实可用的方法。论文对彩色图象分割算法的研究进行了三个步骤的工作:1、色彩
该篇论文是根据作者在台湾DLINK公司成都研发中心实习期间开发Linux-based Two Port Router(LTPR)项目的辅助项目“基于ARM7TDMI芯片和uCliunx系统的软件调试器”而写成的.论文
随着互联网的发展,分布式应用的需求不断增长。从MapReduce产生开始,各种数据并行的分布式计算系统层出不穷,如Microsoft的Dryad,Google的Pregel,UC Berkeley的Spark。针对不同的
该文首先讲明作者对家庭网络系统整体架构的设计.该文的工作是数字化家电网络控制平台SOPCA第二期工作的前期准备部分. 其次,该文根据家庭网络的特点,从多种联网技术中选择蓝
该文从XML的主要技术特征和原理出发,研究了主要几种XML文档转换技术,包括利用DOM的标准API来操作XML文档,利用XML查询语言来操作XML文档及利用XSLT转换XML文档,并对各自的适
随着计算机网络的开放性、共享性、互连程度的扩大,使得网络与信息系统的安全与保密问题显得越来越重要,成了制约其发展关键之所在.该文旨在给出基于实体模型的计算机网络安
该文详细讨论了如何开发一套具有高度可扩展性、可重用性和高度可维护性的住院管理系统.Windows DNA体系结构是开发高度可扩展性系统的优秀框架.它以COM组件为基础,结合COM+
随着Internet的飞速发展,网络上的信息呈指数增长,其内容之丰富,种类之繁多堪称世界上最大的图书馆,如何有效地查询到符合用户兴趣的内容,关系到我们能否充分利用这个巨大的信息资
标识和鉴别是操作系统中的重要技术。标识是用来标明用户的身份;鉴别是对用户身份的真实性进行识别。标识鉴别系统是操作系统实现自身安全机制的基础,而其自身的安全性也是整个
该文首先系统地介绍了组件式GIS系统及其相关理论知识.接着,给出了GIS组件仓库的总体设计方案.然后,详细的介绍了GIS网络分析组件的设计思路和实现方法.该课题着重对以下两个