论文部分内容阅读
在取得人类基因组完整序列的近十年中,各类大规模生物组学研究方法已渗透到了现代生物学研究的各个方面。而由这些技术所带来的海量高维数据已使得现代生物学越来越趋向于一种针对大规模实验数据进行建模、解释并加以应用的信息科学。在这样一个学科发展的背景下,对各种生物数据的处理与保存就显得尤为重要。目前,一些海量且稳定的生物数据的储存与共享一般利用常规文本文件,如生物序列的FASTA文件,数据自身的冗余进行压缩的方法来处理。但是,此处理在实现节约数据空间的同时,却造成了各种数据在操作上的困难。如需要对数据进行提取、搜索或整合等。为此我们针对生物数据设计了一种压缩数据库模型,并通过编写生物数据储存与管理工具——GZQ(Gene Zip Query Tools)来实现对于压缩数据的各项基本操作。GZQ数据库的主体设计思想是对生物数据文件中的不同数据项的内容进行独立的分块压缩操作,并可以根据数据的具体特性,选择合适的数据块组织方式与压缩方法。同时,通过结合使用GZQ工具中的压缩模块(compressor)、索引模块(indexer)与查询模块(querymodule),我们可以在获得更小的文件体积与创建速度的同时,进行多种快捷的数据搜索及任意数据提取的操作。另外,GZQ工具还提供了用于解析与输出不同文件格式的视图模块(viewmodule)及相关的视图格式的定义。