Bighive系统历史网页数据区间查询性能优化

来源 :北京大学 | 被引量 : 0次 | 上传用户:q363342684
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
历史网页集是一个规模庞大、随时间动态变化,同时承载了许多有价值的信息的数据集。本文研究了在这样一个数据集上进行二维区间数据查询的性能优化问题。二维区间数据查询由两部分组成:网络地址范围和时间范围,前者确定了该查询所要取得的历史网页数据的URL网址区间,后者则确定了历史网页数据出现的时间区间,查询者希望得到的结果集即是网络地址和时间都处在这两个指定范围之内的所有历史网页数据。   本文认为,历史网页数据集上的二维区间数据查询是一个复杂的问题。查询性能与数据集特性、数据存储组织等多种因素相关。针对这个问题,本文从量化性能参数指标入手,提出了与执行查询性能相关的量化因素,并围绕这些因素展开相关技术调研、数据集特性分析以及现有系统实现对于此类查询的的性能量化分析,并以量化分析的结果为依据,论证了对存储组织结构改进的可行性。实验结果显示,本文工作提出的改进方案用1倍的外存存储空间换取了二维数据区间查询近3倍的性能提升。   本文的主要贡献是:   1.提出了历史网页数据集上二维区间查询的性能的量化指标以及优化该指标的切入点。未来工作中对性能的进一步优化工作可以沿着本文提出的改进方向继续进行。   2.提出了结合数据集特点对数据存储组织方案进行性能分析的原则。本文的实际工作中,我们以性能分析的结论作为实行改进的依据。将来数据集的特性随时间的发展发生变化时,仍然可以通过把握本原则进行分析与改进的工作。
其他文献
近年来,随着Web规模的不断扩大,Web中蕴含了越来越丰富的信息。随着搜索引擎的出现以及商业搜索引擎功能的日益增强,人们越来越多的利用搜索引擎来寻找和挖掘Web中蕴含的知识
目前,随着搜索引擎使用人群不断增长,其商业价值也日益突显出来,同时作为搜索引擎本身,也需要有一定的盈利模式来支撑它的发展。此时,竞价排名应运而生,现已成为搜索引擎最主要的收
随着硬件技术和移动网络技术的快速发展,以智能手机为代表的嵌入式系统的硬件性能越来越强,软件应用越来越丰富,使得嵌入式设备在性能和功能上越来越接近微型个人电脑。性能
随着互联网基础设施和各种互联网应用的快速发展,多媒体内容如音乐、影视、图片等已经占据了互联网绝大部分的流量。在文字搜索的领域,传统的搜索如Google,百度都已经有很成
随着计算机网络的飞速发展和信息化的推进,数据集成技术得到了越来越广泛而深入的应用,也引起了学术界和工业界的高度重视。XML由于其半结构化等特性使其能够集成来自不同数
随着数据库管理系统应用环境的不断变化,一方面,数据管理、数据访问等相关技术变得越来越复杂;而另一方面,维护成本变得越来越昂贵。于是,企业为了更好地专注于所擅长的业务领域,会
随着计算机和网络技术的发展,工具书由纸质载体逐渐向电子版本的方式发展,商务印书馆拥有一百多年的历史,是国内首屈一指的出版和文化机构,至今出版各类书刊近5万种,其中包括大量
自从XML,诞生以来,越来越多的数据以XML文档格式存储和发布,XML已经成为Internet和Intranet上数据集成和交换的标准,被广泛应用于电子商务、内容管理、多媒体、数字图书馆以
由于广东省珠三角地区工业现阶段的发达,其自然环境特别是农业环境也日益呈现出存在着重金属污染的严重问题。土壤重金属污染带来的问题,对人类健康、生态环境和社会的发展,都有
电子投票(Electronic Voting)泛指使用电信、网络、电子机械等手段投票或者通过电子方式计票的投票活动。使用电子投票可以显著地提高计票工作的效率;同时,投票方式的多样化也