论文部分内容阅读
历史网页集是一个规模庞大、随时间动态变化,同时承载了许多有价值的信息的数据集。本文研究了在这样一个数据集上进行二维区间数据查询的性能优化问题。二维区间数据查询由两部分组成:网络地址范围和时间范围,前者确定了该查询所要取得的历史网页数据的URL网址区间,后者则确定了历史网页数据出现的时间区间,查询者希望得到的结果集即是网络地址和时间都处在这两个指定范围之内的所有历史网页数据。
本文认为,历史网页数据集上的二维区间数据查询是一个复杂的问题。查询性能与数据集特性、数据存储组织等多种因素相关。针对这个问题,本文从量化性能参数指标入手,提出了与执行查询性能相关的量化因素,并围绕这些因素展开相关技术调研、数据集特性分析以及现有系统实现对于此类查询的的性能量化分析,并以量化分析的结果为依据,论证了对存储组织结构改进的可行性。实验结果显示,本文工作提出的改进方案用1倍的外存存储空间换取了二维数据区间查询近3倍的性能提升。
本文的主要贡献是:
1.提出了历史网页数据集上二维区间查询的性能的量化指标以及优化该指标的切入点。未来工作中对性能的进一步优化工作可以沿着本文提出的改进方向继续进行。
2.提出了结合数据集特点对数据存储组织方案进行性能分析的原则。本文的实际工作中,我们以性能分析的结论作为实行改进的依据。将来数据集的特性随时间的发展发生变化时,仍然可以通过把握本原则进行分析与改进的工作。