论文部分内容阅读
随着科技的进步,观测手段,实验工具的巨大革新,导致的数据的爆发式膨胀,科学研究方法从过去的经验科学阶段转变到以数据处理,分析,挖掘为核心的数据探索阶段。在十多年前,计算方法被大量引入了科学研究中,科学计算伴随着电子计算机的出现而迅速发展并获得广泛应用的新兴交叉学科,是数学及计算机实现其在高科技领域应用的必不可少的纽带和工具。如何高效地管理科学计算底层的海量数据,是现在和未来十年科学研究中所遇到的一大难题,我们数据库工作者和研究者的巨大的挑战和机遇。
本文基于科学计算数据管理为目标的HoneyComb平台设计并实现了一个数据存储的子系统。本文介绍的数据存储系统,将数据按列拆分,并且使用某些维度划分数据到指定大小的单元格中,引入空间填充曲线中的Z序作为单元格的底层物理存储顺序存放入分布式文件系统为中。针对科学计算中频繁出现的范围查询和近邻查询,系统在非划分维度上建立辅助索引,加快了多维查询的执行效率。在此基础上,还考虑了上层科研数据管理平台的需求,协助数据管理工具对数据进行更好的存储安排。论文将当前研究的存储热点问题进行了简单的介绍,充分结合科学数据的特征,最终通过对比分析,在给出存储的基本设计的同时还能够给出使用相关技术的原因和优劣。本文的数据存储方法是一种融合了数据局部性理论,数据库索引技术,数据压缩算法,网格计算的综合方法。
本文提出的存储系统雏形在实际科学数据上的运行实验结果显示出在数据压缩,多维范围查询,辅助索引等方面都具有很好的性能,能够更好地满足科学计算数据管理的需求。