海量文档高速检索系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:hhl20020922
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文详细介绍了一个搜索引擎检索系统的设计与实现,针对搜索引擎检索系统的性能问题进行了研究,讨论了影响检索性能的几个因素,并分别提出改进的方法和途径。这些方法包括设计出结构更加良好的倒排文件结构,改进整数压缩编码,引入倒排文件cache,预先计算关键词与文档相关度,减少关键词相对位置计算开销,改进站点聚类算法等。 另外,阐述了系统中使用的新的相关度计算方法,这个算法使得在最终的结果排序上比原有系统有了一些改进。论文的组织形式以实际系统中各模块为主线,这些模块包括倒排文件结构,底层数据接口,查询,计分和站点聚类等。最后,给出了系统的综合测试结果,指出系统中还存在的不足,并对后续工作提出了一些建议。
其他文献
  本文对电子政务应用系统的发展背景、目标和意义进行了论述,阐述了在电子政务系统中政务信息管理系统的内容、地位和作用。在分析了现有系统实现的问题与缺陷后,提出了利用
中药材成分复杂性、批次间存在较大差异等因素严重影响了中药产品的质量稳定性和均一性。为了有效解决这一问题,则必须实现对药物体系中化学成分的直接控制。以在线近红外光
随着网络技术的迅猛发展,网络的规模越来越大,结构越来越复杂,传统的网络管理系统已经无法满足现代网络管理的需求。为了保证网络的运行效率和性能,新一代网络管理系统的开发
因特网由雏形ARPANET的时代发展至今,网络技术和网络应用的发展突飞猛进,除了普通的网页浏览行为之外,网络在经济方面也承担了越来越重要的角色,像网上银行、购物网站这些新生事
当今信息社会,Internet信息访问、办公自动化、多媒体技术和大型电子商务广泛应用,每时每刻地产生着大量的计算机数据。这种数据成几何级数增长,极大地推动了存储技术的发展。网
数字图书馆作为第二代Internet的关键基础设施,近年来取得了快速的发展。面对海量的、异构的数字资源仓储,帮助用户准确有效地找到所需信息成为重大挑战之一。 元数据是“关
随着计算机网络的普遍应用,分布式和中间件技术的日益成熟,工作流技术逐渐成为计算机领域的研究热点之一。在工作流技术的几个研究方向中,工作流模型,工作流过程建模以及过程定义
在现代密码学中,按密钥的功能来分类,可以把密码体制分为两类:对称密码体制和公钥密码体制。  1976年,Di?e和Hellman发表了“密码学的新方向”,提出了一种崭新的密码体制,
垂直风格图形用户界面是一种专门面向传统蒙古文计算机用户而设计的图形用户界面。在目前,关于垂直风格图形用户界面的系统研究,以及符合交互设计理论的垂直风格图形用户界面
给水管网埋于地下,遍布全市,既不方便查看,又不方便管理.以往都是靠技术人员以手工管理图纸的方式实现对给水管网的管理.技术人员每天所面对的是大量的图纸和数据,这种操作坊